2008-12-04 204 views
7

Jeff在本周的Stackoverflow播客中提到,他在2004年写了一个脚本,用110,000个英文单词查询Google,并收集包含每个单词的点击次数的数据库。他们在Stackoverflow上使用它,例如为每个问题页面右侧的“相关”列表。谷歌词频免费数据库?

由于使用类似的脚本创建其中的一个将会很困难(正如Joel提到的,“以30,000个单词在门上敲门”),我想知道是否有人知道更新的,免费的谷歌词频数据库(例如,自那时起确实已经改变的IT词汇,如jquery,ruby,azure等)。

+0

相关播客的链接会很有趣。 – hippietrail 2013-03-18 02:20:18

回答

4

快速谷歌搜索(!)出现几个点击。这link看起来很有希望:

但它不是针对IT的话。

0

您可以在您的朋友/同事之间划分一个列表,并使用足够大的超时时间,以便每个IP每天不超过50,000个请求,然后合并结果。我不确定这种方法的合法性,但使用这种方法让谷歌人“敲门”的可能性非常低。

注意:根据Skuta

1

提供据谷歌,你可能每一个IP每天发送50000个查询的数据进行编辑。我真的认为这是不合法的分裂你的朋友之间..

我有类似的问题,每天每IP查询,但我们通过完全不同的方法解决它。

+0

你介意分享这种“不同”的方法吗? – 2008-12-18 15:16:47

2

它可能迟到回答这个问题,但我可以建议你不同的方式。 而不是从Google获得“点击次数”来自己计算一些近似值。获取大量文本页面(语料库)并计算每个单词的数量。 我已经用维基百科完成了这项工作。有所有wiki页面的转储。你只需要编写一个解析器来提取文本和计算单词。结果是一个超过110K字的列表(至少2M-3M)。 如果您确实需要Google搜索结果中的数字,您可以获取一些单词样本并查询Google,然后对计算值进行一些归一化处理以匹配Google的值。 我希望这可以帮助。