我在scikit-learn中使用各种机制来创建训练数据集的tf-idf表示和由文本特征组成的测试集。这两个数据集都经过预处理以使用相同的词汇表,因此特征和特征数量相同。我可以在训练数据上创建一个模型并评估其在测试数据上的表现。我想知道是否使用SelectPercentile来减少转换后训练集中的特征数量,怎样才能确定测试集中的相同特征以用于预测?scikit-learn SelectPercentile TFIDF数据特征缩减
trainDenseData = trainTransformedData.toarray()
testDenseData = testTransformedData.toarray()
if (useFeatureReduction== True):
reducedTrainData = SelectPercentile(f_regression,percentile=10).fit_transform(trainDenseData,trainYarray)
clf.fit(reducedTrainData, trainYarray)
# apply feature reduction to the test data