2012-02-07 73 views
1

我有一组搜索查询的大小约为。 1000万。我们的目标是收集搜索引擎返回的所有匹配数量。例如,Google返回大约47,500,000个查询“stackoverflow”。网络搜索点击次数

问题是:

1- Google API每天限制为100个查询。这对我的任务来说远非有用,因为我必须得到很多数据。

2-我使用了Bing API,但它不返回准确的数字。在匹配Bing UI中显示的匹配数量的意义上指责。有没有人遇到过这个问题?

3-向搜索引擎发布搜索查询并解析html是一种解决方案,但它会导致验证码并且不会扩展到这个查询数。

所有我关心的是,点击次数和我对任何建议都开放。


simchona:你是什么意思的民意调查? :)

hackartist:谢谢你的评论和论文。

+0

所以你想调查的人? – simchona 2012-02-07 19:13:05

+1

我也对此感兴趣...只是让你知道任何大型搜索引擎都不会因为服务器分片而返回相同的结果。换句话说,在一小时内运行相同的谷歌搜索,当有不同的流量,你可以得到一个截然不同的数字,因为你击中了一个不是最新的服务器。同时查看论文[挖掘Web上的同义词:PMI-IR与托福的LSA](http://www.cs.washington.edu/education/courses/cse573/04au/papers/0212033.pdf) – hackartist 2012-02-07 19:13:18

回答

2

嗯,我真的希望有人会回答这个问题,因为这是我也有兴趣找到的东西,但因为它看起来不像我会抛出这些建议。

您可以设置一系列代理,每100次请求更改其IP,以便您可以将谷歌查询为看似不同的人(看起来像很多工作)。或者你可以用download wikipedia写一些东西来解析数据,这样当你搜索一个术语时,你可以看到它有多少页面。当然,这是一个比整个网页小得多的数据集,但它应该让你开始。另一个可能的数据来源是google n-grams data,您可以下载并解析它以查看搜索词汇的有多少书籍和页面。也许这些方法的组合可以提高任何给定搜索词的准确性。

当然,这些方法都不如您只能直接获取Google页面数量,但可以理解的是,这些数据是他们不想免费发布的数据。

+0

感谢hackartist为你的答案。 我以前没有设置一系列代理和编排流量的经验。所以,我宁愿把它作为最后的选择之一。 维基百科不是我的任务的代表性数据集。我已经尝试过了,并没有用。 我现在正在使用google n-gram数据,并且还倾向于使用Microsoft数据集提供对标题,正文和锚文本统计信息的访问权限。微软数据的问题虽然只是返回概率而不是简单的计数。 再次感谢。 – 2012-02-09 16:59:03

+0

您尝试使用这些数据的项目是什么类型 - 即什么是正确的源文本类型?如果你正在寻找人们谈论的最新事物,请不要忘记twitter和博客圈。 (同样在StackOverflow上,当你找到有帮助的答案时,请将其投票或接受,因为这增加了答案者的声誉,然后让其他人回答他们的问题)祝你好运 – hackartist 2012-02-09 18:21:45