2017-09-04 83 views
-1

我有一长串的对象组。每个对象都具有简单的属性,如名称和描述。他们已经被分组了类似的对象,但我知道很多组是冗余或以某种方式重叠。列表不包含重复的对象,顺序无关紧要。减少重叠对象组的数量

有关如何根据相似性将它们降低为“n”组的任何建议?谢谢。

即字符串

["apple", "orange", "pear"] 
["apple", "steak", "orange"] 
["steak", "burger"] 

前两个是最相似的大致

+0

而你如何定义类似? – Julien

+0

嗨,我通过列表中的同一组对象来定义它。如果有意义的话,该对象可以被看作是一个简单的字符串或数字。 – user963936

回答

0

也许你可以尝试建立,其中,列的数目对应于数据集中的不同单词的数量的矩阵。行数是您的数据点的数量。然后,条目(i,j)是单词j在样本i中出现的次数。一旦你有了这个矩阵,那么任何常见的聚类算法都可以工作,并且你可以用你喜欢的任何方式来定义相似度。