英文文本词汇比较

让我们想象一下，我们可以建立一个统计表，每个单词在一些英文文本或书本中使用多少。我们可以收集图书馆中每个文本/书籍的统计数据。将这些统计数据与对方进行比较的最简单方法是什么？我们如何找到统计相似的词典的文本群/文本群？英文文本词汇比较

首先，您需要对词典进行规格化（即确保两个词典都有相同的词汇表）。

然后，您可以使用类似度量标准，如Hellenger distance或cosine similarity来比较两个词典。

查看机器学习包如Weka也是一个好主意。

This book是机器学习的优秀资源，您可能会觉得它很有用。

2011-01-23 01:18:38 Davidann

我已经采取了通过这本书简单的介绍一下，但我没有找到它侧重于词汇的算法。我错了吗？ – 2012-05-18 19:15:23

我会先看看Lucene（http://lucene.apache.org/java/docs/index.html）必须提供什么。之后，您将需要使用机器学习方法并查看http://en.wikipedia.org/wiki/Information_retrieval。

2011-01-23 01:10:03

您可能会考虑Kullback Leibler距离。仅供参考，请参见封面和托马斯的18页：

2011-01-23 09:44:35 Predictor

回答