2015-04-22 86 views
0

我是scikit和通常使用文本数据的新手,我一直在使用sci-kit CountVectorizer作为开始习惯文本数据(n-grams)的基本功能,但我想扩展它分析其他功能。sci-kit CountVectorizer是否可以用于其他功能(不仅仅是n-gram)?

我宁愿适应countvectorizer而不是自己做,因为那样我就不必重新实现sci-kits tf-idf变压器和分类器。

编辑:

实际上,我还在想着具体特点是诚实的,但我的项目,我想要做的文档之间的风格分类。我知道,对于文本分类,词汇化和词干化是特征提取的流行方式,因此可能是一种。那我想分析的其他功能还包括每款

  • 每风格各异的字中每个文档的句子

    • 长度。更正式的风格可能有更多的口才,丰富的词汇
      • 前一点的一个分支,但特别是
    • 的特定单词长度形容词计数,再次,俚语可能会使用比一个更短的短语正式文体
    • 标点,语句之间特别明显的停顿,语句

    这些有一些想法,我在想的,但我想的更多的功能测试的长度!

  • +0

    你想做什么样的特征提取? –

    +0

    @AndreasMueller我添加了一些细节! –

    回答

    1

    你可以很容易地扩展扩展类(你可以看到source of it here)并实现你所需要的。但是,这取决于你想要做什么,这在你的问题中不是很清楚。

    +0

    嗯我认为是的,我的问题被加载,我需要给这个更多的想法,对特定功能的类型。我可能需要更改标记器也取决于我在找什么。谢谢! –

    1

    您是否在问如何实现您在scikit-learn兼容变压器方面列出的功能?那么可以看看developer docs,特别是rolling your own estimator

    您可以继承BaseEstimator并实施fittransform。但是,如果你想使用流水线操作,这是唯一必需的。对于使用sklearn分类器和tfidf转换器,只需要您的特征提取创建numpy数组或scipy稀疏矩阵。

    +0

    是的,那正是我想要做的!我会考虑那些谢谢你,我不想重新发明轮子,所以如果我可以用这些来实现我自己的功能,我会非常高兴。 –

    相关问题