文本分析：术语文档矩阵？

我正在尝试从文本数据构建预测模型。我从文本数据（unigram和bigram）中构建文档项矩阵，并在其上创建了不同类型的模型（如svm，随机森林，最近邻居等）。所有的技术都取得了不错的成绩，但我想改善结果。我尝试通过更改参数来调整模型，但这似乎并没有提高性能。对我来说可能的下一步是什么？文本分析：术语文档矩阵？

来源

2015-05-14 Joswin K J

来预测究竟是什么？ – user3639557

这是不是一个真正的编程问题，但无论如何：

如果你的目标是预测，而不是文本分类，常用的方法是退避模型（Katz Backoff）和插值/平滑，例如Kneser-Ney smoothing。

像Random Forest这样的更复杂的模型是AFAIK不是绝对必要的，如果你需要快速做出预测的话可能会造成问题。如果您正在使用插值模型，则仍然可以使用数据的保留部分来调整模型参数（lambda）。

最后，我同意阅读部分的NEO，并会推荐Jurafsky和Martin的“语音和语言处理”。

来源

2015-05-14 12:32:12 thie1e

谢谢。顺便提一下，我可以在哪里发布这些类型的问题？ –

文本分析：术语文档矩阵？

回答

相关问题