2012-10-04 16 views
14

我使用sklearn.pipeline.Pipeline来链特征提取器和分类器。有没有办法将多个特征选择类(例如sklearn.feature_selection.text)并行加入其输出?在scikit-learn中结合特征提取类

我的代码现在看起来如下:

pipeline = Pipeline([ 
    ('vect', CountVectorizer()), 
    ('tfidf', TfidfTransformer()), 
    ('clf', SGDClassifier())]) 

这将导致以下:

vect -> tfidf -> clf 

我希望能够指定一个管道,看起来如下:

vect1 -> tfidf1 \ 
       -> clf 
vect2 -> tfidf2/

回答

16

最近在scikit-learn的master分支中最近实施了这个名为FeatureUnion

http://scikit-learn.org/dev/modules/pipeline.html#feature-union

+2

是啊,我看到了它在http://blog.kaggle.com/2012/09/26/impermium-andreas-blog/后,我问的问题 –

+0

酷,第一用户: )让我知道如果你觉得它有用! –

+1

'sklearn.pipeline.FeatureUnion'版本为0.13.1 – smci