如何自动分类字典中的单词？

-1

我有一个很大的字典文件，dic.txt（其实际是SOWPODS），每行一个英文单词。我想将这个文件自动分割成3个不同的文件easy_dic.txt（我们使用的每天最常用的词 - 16岁的词汇），medium_dic.txt（常用但不为人知的词，在easy_dic.txt中找到的30岁减去的单词），hard_dic.txt（只有专业Scrabble玩家才会知道的非常深奥的单词）。最简单的方法是什么（您可以使用互联网上的任何资源）来完成此任务？如何自动分类字典中的单词？

来源

2011-04-24 pathikrit

而不是开放式。只有字典文件，这是不可能的。 – Oded 2011-04-24 08:00:51

好吧，显然你可以使用互联网上的任何资源。我想知道是否有任何可用的API。我不认为这个问题是开放式的，很清楚需要做些什么。 – pathikrit 2011-04-24 17:23:48

@Oded可能你是对的，但问题很有意思，并且有很多有用的结果。当试图制作一个模块来生成拼写错误的单词的建议时，我遇到了同样的问题。通过建议最常用的词（在一定的编辑距离内），软件的猜测能力增加了很多。 – 2011-04-25 03:44:38

谷歌有正确的工具:)，并共享其数据库！

的Ngram viewer是检查和比较文学，杂志词的出现频率的工具等

您可以下载数据库，并从here

HTH训练你的字典！

顺便说一句该工具是非常有趣的使用和发现单词的出生和失踪日期。

来源

2011-04-25 03:22:10

若要添加到此答案，您可能需要查看该页面上的unigrams列表。对于临界点，您可以将您认为易于理解，边界线中等和边界模糊的内容，找到这些词的计数，然后通过对这些计数进行阈值处理来制作列表 – 2011-04-27 04:46:57

采取一些书（优选从你三个类别），在一个计算机可读形式是可用的。
为这些书中的所有单词创建直方图。
合并每个类别中所有书籍的直方图。
处理字典时，请检查哪个类别的直方图中单词的计数最高，并将该单词放入此类别中。

除了最后一步之外，您还可以简单地处理直方图，并从所有直方图中删除单词，但点击次数最高的单词除外。然后，您已经有一个单词列表，而不使用外部字典文件。

来源

2011-04-24 08:13:06 ThiefMaster

下载维基百科转储，用一些Lingpipe工具（最佳数据结构）学习词频。检查词典频率分布中的单词，然后将它们分成3组。

来源

2011-04-25 09:51:19 yura

如何自动分类字典中的单词？

回答

相关问题