我是scikit和通常使用文本数据的新手,我一直在使用sci-kit CountVectorizer作为开始习惯文本数据(n-grams)的基本功能,但我想扩展它分析其他功能。sci-kit CountVectorizer是否可以用于其他功能(不仅仅是n-gram)?
我宁愿适应countvectorizer而不是自己做,因为那样我就不必重新实现sci-kits tf-idf变压器和分类器。
编辑:
实际上,我还在想着具体特点是诚实的,但我的项目,我想要做的文档之间的风格分类。我知道,对于文本分类,词汇化和词干化是特征提取的流行方式,因此可能是一种。那我想分析的其他功能还包括每款
- 长度。更正式的风格可能有更多的口才,丰富的词汇
- 前一点的一个分支,但特别是
- 的特定单词长度形容词计数,再次,俚语可能会使用比一个更短的短语正式文体
- 标点,语句之间特别明显的停顿,语句
这些有一些想法,我在想的,但我想的更多的功能测试的长度!
你想做什么样的特征提取? –
@AndreasMueller我添加了一些细节! –