我有一个很大的字典文件,dic.txt(其实际是SOWPODS),每行一个英文单词。我想将这个文件自动分割成3个不同的文件easy_dic.txt(我们使用的每天最常用的词 - 16岁的词汇),medium_dic.txt(常用但不为人知的词,在easy_dic.txt中找到的30岁减去的单词),hard_dic.txt(只有专业Scrabble玩家才会知道的非常深奥的单词)。最简单的方法是什么(您可以使用互联网上的任何资源)来完成此任务?如何自动分类字典中的单词?
-1
A
回答
4
谷歌有正确的工具:),并共享其数据库!
的Ngram viewer是检查和比较文学,杂志词的出现频率的工具等
您可以下载数据库,并从here
HTH训练你的字典!
顺便说一句该工具是非常有趣的使用和发现单词的出生和失踪日期。
+0
若要添加到此答案,您可能需要查看该页面上的unigrams列表。对于临界点,您可以将您认为易于理解,边界线中等和边界模糊的内容,找到这些词的计数,然后通过对这些计数进行阈值处理来制作列表 – 2011-04-27 04:46:57
0
- 采取一些书(优选从你三个类别),在一个计算机可读形式是可用的。
- 为这些书中的所有单词创建直方图。
- 合并每个类别中所有书籍的直方图。
- 处理字典时,请检查哪个类别的直方图中单词的计数最高,并将该单词放入此类别中。
除了最后一步之外,您还可以简单地处理直方图,并从所有直方图中删除单词,但点击次数最高的单词除外。然后,您已经有一个单词列表,而不使用外部字典文件。
0
下载维基百科转储,用一些Lingpipe工具(最佳数据结构)学习词频。检查词典频率分布中的单词,然后将它们分成3组。
相关问题
- 1. 分类词典
- 2. 使用字典类创建单词树
- 3. 如何模糊搜索字典单词?
- 4. Python中的字典词典!
- 5. C#词典中的字典
- 6. 把词典分成类
- 7. Python的 - 名单词典字典
- 8. 如何用android中的随机字母创建字典单词?
- 9. 字典词典
- 10. 如何模糊搜索词典单词?
- 11. 如何根据词典的定义从词典中找出单词
- 12. 如何自动大写C#中每个单词的首字母?
- 13. 如何将给定的文本分解为字典中的单词?
- 14. 建立来自多个表中的单词的字典在python
- 15. 如何将词典字典转换为Ansible vars文件中的词典列表?
- 16. Marklogic值词典和单词词典
- 17. 字典词典,如何获得价值?
- 18. 如何在分类中包含单词作为数字特征
- 19. 如何从cmusphinx的字典中删除单词?
- 20. 如何从iPhone的字典中检索随机单词?
- 21. 如何获取全文搜索字典中的单词列表
- 22. 如何查找给定字典中的所有输入单词?
- 23. Python:词典中的词典?
- 24. 从字典中计算单词吗?
- 25. 与自定义词典中单词的含义匹配
- 26. 如何自动增加字典的键?
- 27. 检查词典中的单词列表
- 28. 如何更改单词中的词典元素?
- 29. 字典未知大小 - 查找单词是否在字典中
- 30. 词典到Python的字典
而不是开放式。只有字典文件,这是不可能的。 – Oded 2011-04-24 08:00:51
好吧,显然你可以使用互联网上的任何资源。我想知道是否有任何可用的API。我不认为这个问题是开放式的,很清楚需要做些什么。 – pathikrit 2011-04-24 17:23:48
@Oded可能你是对的,但问题很有意思,并且有很多有用的结果。当试图制作一个模块来生成拼写错误的单词的建议时,我遇到了同样的问题。通过建议最常用的词(在一定的编辑距离内),软件的猜测能力增加了很多。 – 2011-04-25 03:44:38