2016-11-16 89 views
-2

我有一个像{abb,abgt,acctg,tgbs,abs}等字符串的列表。字符串的数量由用户定义。我需要将相似长度的字符串聚类在一起。哪种聚类算法适合这种情况,为什么?据我所知,K-means需要在手之前知道簇的数量,我不能预知字符串的数量。基于长度的聚类字符串

+1

你可以按长度(str)分组..没有真正的聚类需要。 –

回答

0

迭代你的字符串。将它们存储在一个映射int - > strings中,将字符串长度用作键。完成。

这不是集群。从技术上讲,这只是一个简单的GROUP BY操作。在SQL中,你会做GROUP BY LENGTH(col)

k-means在这里完全是错误的选择。

+0

:非常感谢你的建议。 – Ivy