sci-kit CountVectorizer是否可以用于其他功能（不仅仅是n-gram）？

我是scikit和通常使用文本数据的新手，我一直在使用sci-kit CountVectorizer作为开始习惯文本数据（n-grams）的基本功能，但我想扩展它分析其他功能。sci-kit CountVectorizer是否可以用于其他功能（不仅仅是n-gram）？

我宁愿适应countvectorizer而不是自己做，因为那样我就不必重新实现sci-kits tf-idf变压器和分类器。

编辑：

实际上，我还在想着具体特点是诚实的，但我的项目，我想要做的文档之间的风格分类。我知道，对于文本分类，词汇化和词干化是特征提取的流行方式，因此可能是一种。那我想分析的其他功能还包括每款

每风格各异的字中每个文档的句子

这些有一些想法，我在想的，但我想的更多的功能测试的长度！

2015-04-22 Nice-kun

你想做什么样的特征提取？ –

@AndreasMueller我添加了一些细节！ –

你可以很容易地扩展扩展类（你可以看到source of it here）并实现你所需要的。但是，这取决于你想要做什么，这在你的问题中不是很清楚。

2015-04-22 18:05:10 Tarantula

嗯我认为是的，我的问题被加载，我需要给这个更多的想法，对特定功能的类型。我可能需要更改标记器也取决于我在找什么。谢谢！ –

您是否在问如何实现您在scikit-learn兼容变压器方面列出的功能？那么可以看看developer docs，特别是rolling your own estimator。

您可以继承BaseEstimator并实施fit和transform。但是，如果你想使用流水线操作，这是唯一必需的。对于使用sklearn分类器和tfidf转换器，只需要您的特征提取创建numpy数组或scipy稀疏矩阵。

2015-04-25 21:00:25

是的，那正是我想要做的！我会考虑那些谢谢你，我不想重新发明轮子，所以如果我可以用这些来实现我自己的功能，我会非常高兴。 –

回答