2012-02-17 110 views
0

我正在wiki xml转储中使用lucene编写维基百科文章的搜索引擎,并且我想计算引擎在与特定查询的谷歌wiki结果相比时的准确性,当我给“site :en.wikipedia.org“以及查询。我想为多个查询执行此操作,以便手动获取Google搜索结果网址。我有Google APIs使用机器人搜索谷歌,但问题是我想摆脱某些类型的结果,如 “/ Category:” “/ icon:” “/ file:” “/ photo:” 和用户页面。过滤谷歌查询结果

但我还没有找到一个方便的方法来做到这一点,除了使用发出查询的迭代方法,获得n个结果,然后使用正则表达式筛选出来,然后检索剩余的(nx)结果并等等。当我这样做时Google会阻止我。

有没有一种智能的方法可以按照我想要的方式使用Java来获取Google结果?

在此先感谢你们。

回答