2009-01-16 91 views
21

我需要我可以找到的几种语言处理操作中最详尽的英语单词列表,但我无法在互联网上找到具有足够好质量的任何内容。自然英语单词

英语里有1,000,000个单词,包括外文和/或技术词汇。

你能否建议这样一个来源(或接近500k字),可以从互联网下载,也许有点分类?你使用什么输入语言处理应用程序?

+1

如果你的字典有一百万字,你可以打赌,普通单词的拼写错误会被误认为是一些不起眼的百万字。这可能会影响这种大型字典的用处。 – 2009-01-16 14:42:17

+0

@Germstorm:你从哪里得到这个100万的号码?你有具体的参考,还是这个传闻? – 2009-01-28 00:15:31

+0

我刚刚在某处听到它,我无法验证它 – Germstorm 2009-06-12 19:26:07

回答

25

Kevin's wordlists是我知道的最好的单词列表。

WordNet是更好,如果你想知道的事情是名词,动词等,同义词等

3

谁让你有百万字?根据Wikipedia,牛津英语词典只有600,000。 OED试图包含所有使用的技术和俚语术语。

4

我在普渡大学进行了受控/自然英语和语言领域知识处理方面的研究。

我会看看这个项目:http://attempto.ifi.uzh.ch/site/description/这是一个项目,以帮助建立一个受控制的自然英语。

您可以下载他们的整个单词词典:http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip它有约100,000个自然英语单词。

您也可以为特定领域的单词提供您自己的词典,这就是我们在我们的研究中所做的。他们提供网络服务来解析和格式化自然英文文本。

0

有没有按照这个 - oxford太多基地字(171k这是我记得在大学里CS程序被告知 但是,如果包括所有形式的words-的则大幅上升。

这就是说,为什么不自己做一个?找一个维基百科的转储和分析它,并建立了一套你遇到的所有令牌。

期待拼写错误虽然 - 就像所有的事情一样rowd-sources将会出现错误。