我有一组搜索查询的大小约为。 1000万。我们的目标是收集搜索引擎返回的所有匹配数量。例如,Google返回大约47,500,000个查询“stackoverflow”。网络搜索点击次数
问题是:
1- Google API每天限制为100个查询。这对我的任务来说远非有用,因为我必须得到很多数据。
2-我使用了Bing API,但它不返回准确的数字。在匹配Bing UI中显示的匹配数量的意义上指责。有没有人遇到过这个问题?
3-向搜索引擎发布搜索查询并解析html是一种解决方案,但它会导致验证码并且不会扩展到这个查询数。
所有我关心的是,点击次数和我对任何建议都开放。
simchona:你是什么意思的民意调查? :)
hackartist:谢谢你的评论和论文。
所以你想调查的人? – simchona 2012-02-07 19:13:05
我也对此感兴趣...只是让你知道任何大型搜索引擎都不会因为服务器分片而返回相同的结果。换句话说,在一小时内运行相同的谷歌搜索,当有不同的流量,你可以得到一个截然不同的数字,因为你击中了一个不是最新的服务器。同时查看论文[挖掘Web上的同义词:PMI-IR与托福的LSA](http://www.cs.washington.edu/education/courses/cse573/04au/papers/0212033.pdf) – hackartist 2012-02-07 19:13:18