基于受控词汇表的文档的相似性度量

我有受控词汇表的列表，例如term1，term2，termN ..文档可能有一个或多个受控词汇表，但每个词汇表对于每个文档只能出现一次。基于受控词汇表的文档的相似性度量

假设总控制词汇表为Term1，Term2，Term3，Term4，Term5，Term6。

选项1：该捷卡的方法着眼于两个数据设置并找到两个值均等于1的事件。因此，我可以将文档的受控项（术语1-6）的存在转换为二进制向量1,0。然后，计算基于的Jaccard（http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html）

在这些选项中（或者其他相似性度量），其措施是合适的基于受控词汇表来计算文档之间的相似性使用基于TF-IDF余弦相似度作为？我是数据挖掘新手，任何建议将不胜感激。

-1

它不会让我留下评论，所以我会留下一个答案。我做的类似，但R中的东西，并有所帮助

http://text2vec.org/similarity.html#cosine_similarity

我不知道是否有一个“正确答案”。我会尝试不同的方法，看看哪个产生了与人类判断最相似的答案。我认为“欧几里德距离”可能是最好的，但我不知道这是否可用。我

2017-10-31 13:41:44 rreck

回答