SVM线性内核中TF-IDF和TF之间的区别

因为IDF是一个常数。一维中的所有值都乘以一个常数。SVM线性内核中TF-IDF和TF之间的区别

在SVM线性内核中，结果会不一样？

2012-09-19 Ted Yu

你能告诉我在svm线性内核中tfidf权重和tf权重的区别吗？ –

你最初的问题并没有意义。你混淆了两个不同的世界： 1）TF/IDF: features for text representation 2）SVM - Linear Kernel：最简单的SVMs（实际上用于文本）的方法。

TF与TF/IDF的区别在于词语的语料库频率是否被使用。 TF/IDF是一个更好的选择，与分类器无关。

仅使用TF我们并不在乎一个词是否常见。因此，常见的词如即使他们没有提供真实的信息，文章也会受到很大的影响。

在TF/IDF中，一个单词在语料库中的出现频率越高，它所接收到的重量就越小。因此，像文章这样的常见单词会收到较小的权重，但却会出现罕见的单词，它被假定为承载更多的信息，并获得更大的权重

N.B.在上面，“物品”被用作一个例子，它们通常应该在预处理步骤中去除。

2012-10-01 22:31:21 iliasfl

你还没有解决这个问题！ OP的意思是，TF每个单词的向量与TFIDF每个单词的向量之间的差异仅仅是每个属性的线性缩放比例。如果您使用线性分类器（如线性回归或线性SVM），则缩放不应有任何区别！ – ihadanny

-2

TF-IDF在多标签分类中无用。它的最佳场景是用于文档排名和/或搜索引擎。

IDF = 1/log DF。 LOG1 = 0;所以如果某个特定课程的每个文档中都有一个词，系统丢弃并不重要。

2013-09-22 22:58:09

这是对接受的答案的评论，而不是实际的答案。如果你想留下评论，赚取足够的代表这样做。 – Syon

回答