2015-05-14 330 views
0

我正在尝试从文本数据构建预测模型。我从文本数据(unigram和bigram)中构建文档项矩阵,并在其上创建了不同类型的模型(如svm,随机森林,最近邻居等)。所有的技术都取得了不错的成绩,但我想改善结果。我尝试通过更改参数来调整模型,但这似乎并没有提高性能。对我来说可能的下一步是什么?文本分析:术语文档矩阵?

+0

来预测究竟是什么? – user3639557

回答

1

这是不是一个真正的编程问题,但无论如何:

如果你的目标是预测,而不是文本分类,常用的方法是退避模型(Katz Backoff)和插值/平滑,例如Kneser-Ney smoothing

像Random Forest这样的更复杂的模型是AFAIK不是绝对必要的,如果你需要快速做出预测的话可能会造成问题。如果您正在使用插值模型,则仍然可以使用数据的保留部分来调整模型参数(lambda)。

最后,我同意阅读部分的NEO,并会推荐Jurafsky和Martin的“语音和语言处理”。

+0

谢谢。顺便提一下,我可以在哪里发布这些类型的问题? –