2016-05-16 55 views
1

我有受控词汇表的列表,例如term1,term2,termN ..文档可能有一个或多个受控词汇表,但每个词汇表对于每个文档只能出现一次。基于受控词汇表的文档的相似性度量

假设总控制词汇表为Term1,Term2,Term3,Term4,Term5,Term6。

  1. 文件1(4分计):字词1,TERM2,term5,term6
  2. 文档2(2分换算):TERM2,term5

选项1: 该捷卡的方法着眼于两个数据设置并找到两个值均等于1的事件。因此,我可以将文档的受控项(术语1-6)的存在转换为二进制向量1,0。然后,计算基于的Jaccard(http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html

  • 文档1的相似性:{1,1,0,0,1,1}
  • 文档2:{0,1,0,0,1,0}

选择2 - 在http://brandonrose.org/clustering

在这些选项中(或者其他相似性度量),其措施是合适的基于受控词汇表来计算文档之间的相似性使用基于TF-IDF余弦相似度作为?我是数据挖掘新手,任何建议将不胜感激。

回答

-1

它不会让我留下评论,所以我会留下一个答案。我做的类似,但R中的东西,并有所帮助

http://text2vec.org/similarity.html#cosine_similarity 

我不知道是否有一个“正确答案”。我会尝试不同的方法,看看哪个产生了与人类判断最相似的答案。我认为“欧几里德距离”可能是最好的,但我不知道这是否可用。我