我正在处理文档分类项目。我正在使用tf-idf和质心算法。但是我需要一本字典来使用这些算法。我已经尝试过用信息获取字典,但我认为它不够满意。你有没有更好的信息增益的特征选择算法的建议?用于文档分类的最佳特征选择算法
0
A
回答
2
根据我的经验,没有最好的特征选择方法。适用于一个数据集的算法对于其他数据集可能表现很差,因此它主要是一个实验性问题。尝试一些,看看哪些适合您的问题设置。 George Forman已经发表了几篇关于这个主题的文章,值得一读的时候有时间。
1
还值得指出的是,在许多情况下,功能选择是不必要的。只需使用所有这些词,并使用对大特征空间稳健的分类器(例如线性SVM/L1正则化逻辑回归)。这是解决问题的一个较少的问题,而且这是您需要明确证明不使用的基准。
相关问题
- 1. 特征选择算法POE1ACC用于连续值的特征
- 2. 用于文本分类的特征选择
- 3. Python中用于文本分类的特征选择
- 4. 是否有可应用于分类数据输入的特征选择算法?
- 5. 遗传算法的特征选择
- 6. 词性分析(POS)标签文本分类的特征选择
- 7. 特征选择中用于降维的最佳优化技术是什么?
- 8. PCA对于分类特征?
- 9. 如何选择特征选择算法? - advice
- 10. 选择最佳2人的算法
- 11. 用于分类特征的Tensorflow嵌入
- 12. 自动文档分类的最佳库
- 13. 使用特征选择的遗传算法
- 14. 使用遗传算法的特征选择
- 15. 如何用差分进化算法选择最佳参数
- 16. 如何使用“多类”SVM计算SFS(顺序特征选择)?
- 17. 分类特征
- 18. 用于文档分类的计算IDF(逆文档频率)
- 19. 木槌特征选择类似于将特征值设置为0
- 20. 特征脸算法
- 21. 哪种聚类算法最适合聚类一维特征?
- 22. 用多个标准筛选列表的最佳选择算法?
- 23. MATLAB中的特征选择方法?
- 24. 情感分析,特征选择
- 25. 从卷积神经网络(CNN)中提取特征,并将此特征用于其他分类算法
- 26. 针对2类分类建议的无监督特征选择/提取方法?
- 27. 简单的基于规则的分类器的特征选择/提取
- 28. MATLAB中的特征选择
- 29. R中用于QSAR数据的特征选择用于回归分析
- 30. 多标签分类的特征选择(scikit-learn)
我不同意这种评估。降维是一种在机器学习中开发更一般化的模型的技术,无论分类器的鲁棒性如何。此外,它降低了运行模型的计算成本等。如果情况并非如此,那么也许我同意你的评论。 – OAK