2010-02-24 92 views
6

采取正克我切实试图解决同样的问题,因为这个问题一个数据库:寻找从维基百科

Finding related words (specifically physical objects) to a specific word

减去的话代表物理对象的要求。答案和编辑问题似乎表明,一个好的开始是建立一个使用维基百科文本作为语料库的n-gram频率列表。在我开始下载庞大的维基百科转储之前,有没有人知道这样的列表是否已经存在?

PS如果前一个问题的楼主看到这个,我很想知道你是怎么去着手解决这个问题,因为你的结果似乎优良:-)

回答

1

Google as a publicly available TB的正姆数据库(最多5)。
您可以订购6张DVD或找到托管它的种子。

+0

是的,我认为这个数据集 - 甚至比维基百科转储更可怕! – mojones 2010-02-24 10:54:13

+3

它不可用于商业用途 – Joel 2010-09-17 10:20:51

+0

有没有人找到它的洪流? – placeybordeaux 2012-09-25 21:41:55