2012-09-19 51 views

回答

1

你最初的问题并没有意义。你混淆了两个不同的世界: 1)TF/IDF: features for text representation 2)SVM - Linear Kernel:最简单的SVMs(实际上用于文本)的方法。

TF与TF/IDF的区别在于词语的语料库频率是否被使用。 TF/IDF是一个更好的选择,与分类器无关。

仅使用TF我们并不在乎一个词是否常见。因此,常见的词如即使他们没有提供真实的信息,文章也会受到很大的影响。

在TF/IDF中,一个单词在语料库中的出现频率越高,它所接收到的重量就越小。因此,像文章这样的常见单词会收到较小的权重,但却会出现罕见的单词,它被假定为承载更多的信息,并获得更大的权重

N.B.在上面,“物品”被用作一个例子,它们通常应该在预处理步骤中去除。

+1

你还没有解决这个问题! OP的意思是,TF每个单词的向量与TFIDF每个单词的向量之间的差异仅仅是每个属性的线性缩放比例。如果您使用线性分类器(如线性回归或线性SVM),则缩放不应有任何区别! – ihadanny

-2

TF-IDF在多标签分类中无用。它的最佳场景是用于文档排名和/或搜索引擎。

IDF = 1/log DF。 LOG1 = 0;所以如果某个特定课程的每个文档中都有一个词,系统丢弃并不重要。

+0

这是对接受的答案的评论,而不是实际的答案。如果你想留下评论,赚取足够的代表这样做。 – Syon