2017-04-05 99 views
0

假设我们已经使用TFIDF变换将文档编码为连续值特征。我们如何使用带多项式朴素贝叶斯的TFIDF向量?

我们现在如何将它用作朴素贝叶斯分类器的输入?

伯努利朴素贝叶斯出来了,因为我们的特点是不是二进制了。
好像我们不能使用Multinomial naive-bayes,因为这些值是连续的而不是绝对的。

作为替代方案,是否适合使用高斯朴素贝叶斯呢? TFIDF向量可能在高斯分布假设下保持良好?

的SCI-Kit了解用于MultionomialNB文档建议如下:

多项式朴素贝叶斯分类器是适合于与离散特征分类 (例如,用于文本分类字计数)。 多项分布通常需要整数特征计数。 但是,实际上,分数计数如tf-idf也可能起作用。

MultinomialNB的分数值不是基本不可能的吗?
据我了解,似然函数本身假设我们正在处理离散计数(since it deals with counting/factorials

如何将TFIDF值,即使有这样的公式工作?

回答

0

从技术上讲,你是对的。 (传统)Multinomial N.B.模型考虑文档d作为词汇尺寸的特征矢量X,其中每个元素XI是术语的计数i记录d。根据定义,这个向量x然后遵循多项分布,导致MNB的特征分类功能。

当使用TF-IDF权重,而不是长期计数,我们的特征向量是(最有可能)不遵守多项分布了,所以分类功能不是在理论上了有理有据。 但是,它确实表明,tf-idf权重而不是计数工作(更好)更好。

如何将TFIDF值,即使有这样的公式工作?

在完全相同的方式,除了特征向量X现在是TF-IDF权重和不计数的载体。

您还可以检查出次线性TF-IDF权重方案中,sklearn tfidf-vectorizer实施。在我自己的研究中,我发现这个表现更好:它使用术语频率的对数版本。这个想法是,当查询字词在doc中出现20次时。 a和1次doc。 b,doc。应该(可能)不应该被认为是重要的20倍,但更可能的是(20)次。