-2
我有一个像{abb,abgt,acctg,tgbs,abs}等字符串的列表。字符串的数量由用户定义。我需要将相似长度的字符串聚类在一起。哪种聚类算法适合这种情况,为什么?据我所知,K-means需要在手之前知道簇的数量,我不能预知字符串的数量。基于长度的聚类字符串
我有一个像{abb,abgt,acctg,tgbs,abs}等字符串的列表。字符串的数量由用户定义。我需要将相似长度的字符串聚类在一起。哪种聚类算法适合这种情况,为什么?据我所知,K-means需要在手之前知道簇的数量,我不能预知字符串的数量。基于长度的聚类字符串
迭代你的字符串。将它们存储在一个映射int - > strings中,将字符串长度用作键。完成。
这不是集群。从技术上讲,这只是一个简单的GROUP BY
操作。在SQL中,你会做GROUP BY LENGTH(col)
。
k-means在这里完全是错误的选择。
:非常感谢你的建议。 – Ivy
你可以按长度(str)分组..没有真正的聚类需要。 –