2011-04-24 78 views
-1

我有一个很大的字典文件,dic.txt(其实际是SOWPODS),每行一个英文单词。我想将这个文件自动分割成3个不同的文件easy_dic.txt(我们使用的每天最常用的词 - 16岁的词汇),medium_dic.txt(常用但不为人知的词,在easy_dic.txt中找到的30岁减去的单词),hard_dic.txt(只有专业Scrabble玩家才会知道的非常深奥的单词)。最简单的方法是什么(您可以使用互联网上的任何资源)来完成此任务?如何自动分类字典中的单词?

+2

而不是开放式。只有字典文件,这是不可能的。 – Oded 2011-04-24 08:00:51

+0

好吧,显然你可以使用互联网上的任何资源。我想知道是否有任何可用的API。我不认为这个问题是开放式的,很清楚需要做些什么。 – pathikrit 2011-04-24 17:23:48

+0

@Oded可能你是对的,但问题很有意思,并且有很多有用的结果。当试图制作一个模块来生成拼写错误的单词的建议时,我遇到了同样的问题。通过建议最常用的词(在一定的编辑距离内),软件的猜测能力增加了很多。 – 2011-04-25 03:44:38

回答

4

谷歌有正确的工具:),并共享其数据库!

Ngram viewer是检查和比较文学,杂志词的出现频率的工具等

您可以下载数据库,并从here

HTH训练你的字典!

顺便说一句该工具是非常有趣的使用和发现单词的出生和失踪日期。

+0

若要添加到此答案,您可能需要查看该页面上的unigrams列表。对于临界点,您可以将您认为易于理解,边界线中等和边界模糊的内容,找到这些词的计数,然后通过对这些计数进行阈值处理来制作列表 – 2011-04-27 04:46:57

0
  • 采取一些书(优选从你三个类别),在一个计算机可读形式是可用的。
  • 为这些书中的所有单词创建直方图。
  • 合并每个类别中所有书籍的直方图。
  • 处理字典时,请检查哪个类别的直方图中单词的计数最高,并将该单词放入此类别中。

除了最后一步之外,您还可以简单地处理直方图,并从所有直方图中删除单词,但点击次数最高的单词除外。然后,您已经有一个单词列表,而不使用外部字典文件。

0

下载维基百科转储,用一些Lingpipe工具(最佳数据结构)学习词频。检查词典频率分布中的单词,然后将它们分成3组。