2016-12-06 28 views

回答

3

你的假设是对的。你所做的就是你在你的训练数据上训练你的LDA,然后根据训练好的模型转换训练和测试数据。

所以你有这样的事情:

from sklearn.decomposition import LatentDirichletAllocation as LDA 
lda = LDA(n_topics=10,...) 
lda.fit(training_data) 
training_features = lda.transform(training_data) 
testing_features = lda.transform(testing_data) 

如果我是你,我会用串联词袋的LDA功能使用numpy.hstack特征或scipy.hstack如果你的弓的特点是稀疏。

+1

我会对人们对于支持向量机的LDA特性等方面的经验感兴趣。我做了几次尝试,发现它们或多或少对手头的问题没有用处 - 性能没有超过单词/正克特征的提高(如果我记得,我使用单词和2克)。没有字/ n-gram特征,性能非常糟糕。 – drevicko