0

我正在处理文档分类项目。我正在使用tf-idf和质心算法。但是我需要一本字典来使用这些算法。我已经尝试过用信息获取字典,但我认为它不够满意。你有没有更好的信息增益的特征选择算法的建议?用于文档分类的最佳特征选择算法

回答

2

根据我的经验,没有最好的特征选择方法。适用于一个数据集的算法对于其他数据集可能表现很差,因此它主要是一个实验性问题。尝试一些,看看哪些适合您的问题设置。 George Forman已经发表了几篇关于这个主题的文章,值得一读的时候有时间。

1

还值得指出的是,在许多情况下,功能选择是不必要的。只需使用所有这些词,并使用对大特征空间稳健的分类器(例如线性SVM/L1正则化逻辑回归)。这是解决问题的一个较少的问题,而且这是您需要明确证明不使用的基准。

+0

我不同意这种评估。降维是一种在机器学习中开发更一般化的模型的技术,无论分类器的鲁棒性如何。此外,它降低了运行模型的计算成本等。如果情况并非如此,那么也许我同意你的评论。 – OAK