使用来自LDA的主题建模信息作为要素，通过SVM执行文本分类

我想使用主题建模信息作为馈送给svm分类器的要素执行文本分类。所以我想知道如何通过在数据集的训练和测试分区上执行LDA来生成主题建模功能，因为corprus会为数据集的两个分区更改？使用来自LDA的主题建模信息作为要素，通过SVM执行文本分类

我在做错误的假设吗？

你能否提供一个关于如何使用scikit学习的例子？

来源

2016-12-06 asterix

你的假设是对的。你所做的就是你在你的训练数据上训练你的LDA，然后根据训练好的模型转换训练和测试数据。

所以你有这样的事情：

from sklearn.decomposition import LatentDirichletAllocation as LDA 
lda = LDA(n_topics=10,...) 
lda.fit(training_data) 
training_features = lda.transform(training_data) 
testing_features = lda.transform(testing_data)

如果我是你，我会用串联词袋的LDA功能使用numpy.hstack特征或scipy.hstack如果你的弓的特点是稀疏。

来源

2016-12-07 04:11:13 Ash

我会对人们对于支持向量机的LDA特性等方面的经验感兴趣。我做了几次尝试，发现它们或多或少对手头的问题没有用处 - 性能没有超过单词/正克特征的提高（如果我记得，我使用单词和2克）。没有字/ n-gram特征，性能非常糟糕。 – drevicko

使用来自LDA的主题建模信息作为要素，通过SVM执行文本分类

回答

相关问题