假设我们已经使用TFIDF变换将文档编码为连续值特征。我们如何使用带多项式朴素贝叶斯的TFIDF向量?
我们现在如何将它用作朴素贝叶斯分类器的输入?
伯努利朴素贝叶斯出来了,因为我们的特点是不是二进制了。
好像我们不能使用Multinomial naive-bayes,因为这些值是连续的而不是绝对的。
作为替代方案,是否适合使用高斯朴素贝叶斯呢? TFIDF向量可能在高斯分布假设下保持良好?
的SCI-Kit了解用于MultionomialNB文档建议如下:
多项式朴素贝叶斯分类器是适合于与离散特征分类 (例如,用于文本分类字计数)。 多项分布通常需要整数特征计数。 但是,实际上,分数计数如tf-idf也可能起作用。
MultinomialNB的分数值不是基本不可能的吗?
据我了解,似然函数本身假设我们正在处理离散计数(since it deals with counting/factorials)
如何将TFIDF值,即使有这样的公式工作?