3
我想使用主题建模信息作为馈送给svm分类器的要素执行文本分类。所以我想知道如何通过在数据集的训练和测试分区上执行LDA来生成主题建模功能,因为corprus会为数据集的两个分区更改?使用来自LDA的主题建模信息作为要素,通过SVM执行文本分类
我在做错误的假设吗?
你能否提供一个关于如何使用scikit学习的例子?
我想使用主题建模信息作为馈送给svm分类器的要素执行文本分类。所以我想知道如何通过在数据集的训练和测试分区上执行LDA来生成主题建模功能,因为corprus会为数据集的两个分区更改?使用来自LDA的主题建模信息作为要素,通过SVM执行文本分类
我在做错误的假设吗?
你能否提供一个关于如何使用scikit学习的例子?
你的假设是对的。你所做的就是你在你的训练数据上训练你的LDA,然后根据训练好的模型转换训练和测试数据。
所以你有这样的事情:
from sklearn.decomposition import LatentDirichletAllocation as LDA
lda = LDA(n_topics=10,...)
lda.fit(training_data)
training_features = lda.transform(training_data)
testing_features = lda.transform(testing_data)
如果我是你,我会用串联词袋的LDA功能使用numpy.hstack特征或scipy.hstack如果你的弓的特点是稀疏。
我会对人们对于支持向量机的LDA特性等方面的经验感兴趣。我做了几次尝试,发现它们或多或少对手头的问题没有用处 - 性能没有超过单词/正克特征的提高(如果我记得,我使用单词和2克)。没有字/ n-gram特征,性能非常糟糕。 – drevicko