1
为了找到两个文档之间的相似度,我计划采用mahout来执行此任务。计算mahout中的余弦相似度
的方法将包括:
- 该文档转换为TF-IDF
- 移除停止词(使搜索有效)
- 运行余弦相似度
- 给相似 程度
我打算在mahout中实现这一点。我是一个初学者mahout,有人可以帮我几个教程来执行此操作,并告诉我,如果这是一个有效的方法来计算文档之间的相似度
为了找到两个文档之间的相似度,我计划采用mahout来执行此任务。计算mahout中的余弦相似度
的方法将包括:
我打算在mahout中实现这一点。我是一个初学者mahout,有人可以帮我几个教程来执行此操作,并告诉我,如果这是一个有效的方法来计算文档之间的相似度
你不需要实现任何东西。使用seqdirectory和seq2sparse来矢量化你的数据。之后,您可以使用RowSimilarityJob来计算成对余弦相似度。
感谢您的帮助。我现在正在研究mahout – siddharth 2012-01-09 14:44:07
在Windows上使用mahout是明智的,或者我应该转移到linux ..请帮助 – siddharth 2012-01-05 04:37:56
你已经尝试过了什么?你面临什么问题?如果你需要一个一般的介绍,你应该阅读Mahout in Action。 – 2012-01-05 10:24:16