如果时间不是一个因素,哪个是最好的文档分类方法,我们不知道有多少类?文本分类,包括预处理
回答
在我的(不完整的)知识中,如果您不知道有多少类,那么分层凝聚聚类是最好的方法。所有其他聚类算法要么需要事先了解桶的数量,要么需要某种交叉验证或其他实验来确定桶的合理数量。
+1。尽管平面聚类,但有时推荐N项的sqrt(N)作为聚类数量。 – 2011-04-11 21:03:01
如何使用Growing Som算法进行实际聚类,然后使用HAC的自下而上方法?这样我们就不必猜测集群的数量。 – Evan 2011-04-11 21:07:26
我对Growing Som没有背景,所以我无法就此提出任何建议。 – bmargulies 2011-04-11 21:17:29
交叉链接:请参阅SO上的how-do-i-determine-k-when-using-k-means-clustering。
谢谢!尽管我已经开始逐渐增长。这对确定起始网格大小将有所帮助。 – Evan 2011-04-13 19:06:55
我们也不知道这些话题。 – Evan 2011-04-11 20:59:27
我们不知道有多少类有聚类,然后是类标签 – Evan 2011-04-11 21:00:20