2012-01-05 206 views
1

为了找到两个文档之间的相似度,我计划采用mahout来执行此任务。计算mahout中的余弦相似度

的方法将包括:

  1. 该文档转换为TF-IDF
  2. 移除停止词(使搜索有效)
  3. 运行余弦相似度
  4. 给相似
  5. 程度

我打算在mahout中实现这一点。我是一个初学者mahout,有人可以帮我几个教程来执行此操作,并告诉我,如果这是一个有效的方法来计算文档之间的相似度

+0

在Windows上使用mahout是明智的,或者我应该转移到linux ..请帮助 – siddharth 2012-01-05 04:37:56

+0

你已经尝试过了什么?你面临什么问题?如果你需要一个一般的介绍,你应该阅读Mahout in Action。 – 2012-01-05 10:24:16

回答

2

你不需要实现任何东西。使用seqdirectory和seq2sparse来矢量化你的数据。之后,您可以使用RowSimilarityJob来计算成对余弦相似度。

+0

感谢您的帮助。我现在正在研究mahout – siddharth 2012-01-09 14:44:07