让我们想象一下,我们可以建立一个统计表,每个单词在一些英文文本或书本中使用多少。我们可以收集图书馆中每个文本/书籍的统计数据。 将这些统计数据与对方进行比较的最简单方法是什么?我们如何找到统计相似的词典的文本群/文本群?英文文本词汇比较
Q
英文文本词汇比较
1
A
回答
1
首先,您需要对词典进行规格化(即确保两个词典都有相同的词汇表)。
然后,您可以使用类似度量标准,如Hellenger distance或cosine similarity来比较两个词典。
查看机器学习包如Weka也是一个好主意。
This book是机器学习的优秀资源,您可能会觉得它很有用。
0
我会先看看Lucene(http://lucene.apache.org/java/docs/index.html)必须提供什么。之后,您将需要使用机器学习方法并查看http://en.wikipedia.org/wiki/Information_retrieval。
0
您可能会考虑Kullback Leibler距离。仅供参考,请参见封面和托马斯的18页:
相关问题
- 1. 词汇组匹配文本
- 2. 检测文本中的英文单词
- 3. 比较文本和文本文件
- 4. 英文动词inflector
- 5. 比较Android按钮文本
- 6. 比较字符串文本
- 7. 比较爬页面文本
- 8. 的UnicodeDecodeError文本比较
- 9. 比较两个文本php
- 10. 文本比较算法
- 11. 比较Unix中的文本
- 12. 比较两个文本框
- 13. 版本比较JSON文档
- 14. DUnit比较两个文本文件并显示比较
- 15. 比较谓词
- 16. 比较谓词
- 17. 英文单词捕获
- 18. 比较基于行内单词的文本行数Java
- 19. 比较三个文本文件
- 20. 比较两个文本文件
- 21. 比较文本文件的字符串
- 22. delphi比较文本文件内容
- 23. 文本文件比较库(MS许可)
- 24. 比较文本文件的列
- 25. Python文本文件比较和连接
- 26. Linux的比较两个文本文件
- 27. 比较Flex中的文本文件
- 28. 如何比较文本文件?
- 29. 比较两个文本文件相互
- 30. 如何比较大型文本文件?
我已经采取了通过这本书简单的介绍一下,但我没有找到它侧重于词汇的算法。我错了吗? – 2012-05-18 19:15:23