2011-01-23 59 views
1

让我们想象一下,我们可以建立一个统计表,每个单词在一些英文文本或书本中使用多少。我们可以收集图书馆中每个文本/书籍的统计数据。 将这些统计数据与对方进行比较的最简单方法是什么?我们如何找到统计相似的词典的文本群/文本群?英文文本词汇比较

回答

1

首先,您需要对词典进行规格化(即确保两个词典都有相同的词汇表)。

然后,您可以使用类似度量标准,如Hellenger distancecosine similarity来比较两个词典。

查看机器学习包如Weka也是一个好主意。

This book是机器学习的优秀资源,您可能会觉得它很有用。

+0

我已经采取了通过这本书简单的介绍一下,但我没有找到它侧重于词汇的算法。我错了吗? – 2012-05-18 19:15:23