2011-04-11 78 views
0

如果时间不是一个因素,哪个是最好的文档分类方法,我们不知道有多少类?文本分类,包括预处理

+0

我们也不知道这些话题。 – Evan 2011-04-11 20:59:27

+0

我们不知道有多少类有聚类,然后是类标签 – Evan 2011-04-11 21:00:20

回答

2

在我的(不完整的)知识中,如果您不知道有多少类,那么分层凝聚聚类是最好的方法。所有其他聚类算法要么需要事先了解桶的数量,要么需要某种交叉验证或其他实验来确定桶的合理数量。

+0

+1。尽管平面聚类,但有时推荐N项的sqrt(N)作为聚类数量。 – 2011-04-11 21:03:01

+0

如何使用Growing Som算法进行实际聚类,然后使用HAC的自下而上方法?这样我们就不必猜测集群的数量。 – Evan 2011-04-11 21:07:26

+0

我对Growing Som没有背景,所以我无法就此提出任何建议。 – bmargulies 2011-04-11 21:17:29