我们如何使用带多项式朴素贝叶斯的TFIDF向量？

假设我们已经使用TFIDF变换将文档编码为连续值特征。我们如何使用带多项式朴素贝叶斯的TFIDF向量？

我们现在如何将它用作朴素贝叶斯分类器的输入？

伯努利朴素贝叶斯出来了，因为我们的特点是不是二进制了。
好像我们不能使用Multinomial naive-bayes，因为这些值是连续的而不是绝对的。

作为替代方案，是否适合使用高斯朴素贝叶斯呢？ TFIDF向量可能在高斯分布假设下保持良好？

的SCI-Kit了解用于MultionomialNB文档建议如下：

多项式朴素贝叶斯分类器是适合于与离散特征分类（例如，用于文本分类字计数）。多项分布通常需要整数特征计数。但是，实际上，分数计数如tf-idf也可能起作用。

MultinomialNB的分数值不是基本不可能的吗？
据我了解，似然函数本身假设我们正在处理离散计数（since it deals with counting/factorials）

如何将TFIDF值，即使有这样的公式工作？

来源

2017-04-05 dhrumeel

从技术上讲，你是对的。（传统）Multinomial N.B.模型考虑文档d作为词汇尺寸的特征矢量X，其中每个元素XI是术语我的计数i记录d。根据定义，这个向量x然后遵循多项分布，导致MNB的特征分类功能。

当使用TF-IDF权重，而不是长期计数，我们的特征向量是（最有可能）不遵守多项分布了，所以分类功能不是在理论上了有理有据。但是，它确实表明，tf-idf权重而不是计数工作（更好）更好。

如何将TFIDF值，即使有这样的公式工作？

在完全相同的方式，除了特征向量X现在是TF-IDF权重和不计数的载体。

您还可以检查出次线性TF-IDF权重方案中，sklearn tfidf-vectorizer实施。在我自己的研究中，我发现这个表现更好：它使用术语频率的对数版本。这个想法是，当查询字词在doc中出现20次时。 a和1次doc。 b，doc。应该（可能）不应该被认为是重要的20倍，但更可能的是（20）次。

来源

2017-12-05 11:17:17 Keyb0ardwarri0r

我们如何使用带多项式朴素贝叶斯的TFIDF向量？

回答

相关问题