我正在尝试从文本数据构建预测模型。我从文本数据(unigram和bigram)中构建文档项矩阵,并在其上创建了不同类型的模型(如svm,随机森林,最近邻居等)。所有的技术都取得了不错的成绩,但我想改善结果。我尝试通过更改参数来调整模型,但这似乎并没有提高性能。对我来说可能的下一步是什么?文本分析:术语文档矩阵?
0
A
回答
1
这是不是一个真正的编程问题,但无论如何:
如果你的目标是预测,而不是文本分类,常用的方法是退避模型(Katz Backoff)和插值/平滑,例如Kneser-Ney smoothing。
像Random Forest这样的更复杂的模型是AFAIK不是绝对必要的,如果你需要快速做出预测的话可能会造成问题。如果您正在使用插值模型,则仍然可以使用数据的保留部分来调整模型参数(lambda)。
最后,我同意阅读部分的NEO,并会推荐Jurafsky和Martin的“语音和语言处理”。
+0
谢谢。顺便提一下,我可以在哪里发布这些类型的问题? –
相关问题
- 1. Bigram分析和术语文档矩阵
- 2. 如何计算术语文档矩阵?
- 3. 从文本文件创建术语文档矩阵
- 4. 很多文章的单词列表 - 文档 - 术语矩阵
- 5. 矩阵术语
- 6. 文件,术语矩阵与Quanteda
- 7. 在java中为LSI实现创建术语文档矩阵
- 8. 使用python从csv读取术语 - 文档矩阵
- 9. 您如何规范化R中文档术语矩阵的行?
- 10. 来自术语文档矩阵的关联
- 11. 将CSV格式的术语文档矩阵导入到R
- 12. 按行合并两个文档术语矩阵
- 13. 只保留文档术语矩阵中的特定格式R
- 14. 将函数应用于多个文档术语矩阵
- 15. 创建文档术语矩阵时出现属性错误
- 16. 如何用TF-IDF文档 - 术语矩阵表示新文档,以及如何用大矩阵实现生产?
- 17. 计算术语x术语矩阵
- 18. 文档的正确术语
- 19. SVD中的一个术语文档矩阵不给我重视我想
- 20. 在字符串中查找单词时计算术语文档矩阵也
- 21. 转换一个术语的文档矩阵到节点/边列表中的R
- 22. 如何根据每个术语出现的频率过滤术语文档矩阵
- 23. 大文档的文本分析
- 24. 术语在文本
- 25. 文本的语义分析
- 26. 从双列创建一个术语频矩阵出现矩阵
- 27. [R文本挖掘转换期限文档矩阵
- 28. scipy/sklearn用于文档分类的稀疏矩阵分解
- 29. 如何上传ShinyApp中的文本文件夹以获取R中文件语料库中的文档术语矩阵?
- 30. 如何确定每个文档中术语的术语频率?
来预测究竟是什么? – user3639557