过滤谷歌查询结果

2012-02-17 110 views 0 likes

我正在wiki xml转储中使用lucene编写维基百科文章的搜索引擎，并且我想计算引擎在与特定查询的谷歌wiki结果相比时的准确性，当我给“site ：en.wikipedia.org“以及查询。我想为多个查询执行此操作，以便手动获取Google搜索结果网址。我有Google APIs使用机器人搜索谷歌，但问题是我想摆脱某些类型的结果，如 “/ Category：” “/ icon：” “/ file：” “/ photo：” 和用户页面。过滤谷歌查询结果

但我还没有找到一个方便的方法来做到这一点，除了使用发出查询的迭代方法，获得n个结果，然后使用正则表达式筛选出来，然后检索剩余的（nx）结果并等等。当我这样做时Google会阻止我。

有没有一种智能的方法可以按照我想要的方式使用Java来获取Google结果？

在此先感谢你们。

来源

2012-02-17 crazyim5

回答

你可以只尝试排除在谷歌搜索结果的页面，就像这样：

living people site:en.wikipedia.org -inurl:category -inurl:category_talk -inurl:file -inurl:file_talk -inurl:user -inurl:user_talk

来源

2012-02-18 00:16:02

过滤谷歌查询结果

回答

相关问题