2017-06-17 68 views
2

当使用TF-IDF比较文档A时,B 我知道文档长度并不重要。 但是在这种情况下,与A-B相比,A-C ,我认为文件B,C的长度应该是相同的长度。tf-idf:我应该对文档长度进行规范化

例如 日志:100个字 文献A:20个词语 文献B:30个字

日志 - A的TF-IDF评分:0.XX 日志 - B的TF-IDF评分:0.xx

我应该对文档A,B进行规范化吗? (如果比较目标不同,它似乎是一个问题或错误的结果)

回答

3

通常你想做任何事情给你的数据最好的交叉验证结果。

如果您只是在比较它们是否具有余弦相似性,那么您必须将矢量归一化为计算的一部分,但由于文档长度不同,它不会影响分数。许多一般的文件检索系统认为较短的文件更有价值,但这通常在计算相似性之后作为分数乘数处理。

经常使用ln(TF)代替原始TF分数作为归一化特征,因为看到1和2次的术语之间的差异比看到术语100和200之间的差异更重要;它也保持了过度使用一个主导矢量的术语,并且通常更加健壮。

+0

感谢您的意见。我有一个问题..我发现“Ngram”只是使用TF。 Ngram是否需要规范文档?我认为tf-idf和Ngram有相似的算法。 – Acool5

+0

@ Acool5它是完全相同的算法,唯一的区别是使用ngrams时,进入的术语集通常会增加。 –