tf-idf：我应该对文档长度进行规范化

当使用TF-IDF比较文档A时，B 我知道文档长度并不重要。但是在这种情况下，与A-B相比，A-C ，我认为文件B，C的长度应该是相同的长度。tf-idf：我应该对文档长度进行规范化

例如日志：100个字文献A：20个词语文献B：30个字

日志 - A的TF-IDF评分：0.XX 日志 - B的TF-IDF评分：0.xx

我应该对文档A，B进行规范化吗？（如果比较目标不同，它似乎是一个问题或错误的结果）

2017-06-17 Acool5

通常你想做任何事情给你的数据最好的交叉验证结果。

如果您只是在比较它们是否具有余弦相似性，那么您必须将矢量归一化为计算的一部分，但由于文档长度不同，它不会影响分数。许多一般的文件检索系统认为较短的文件更有价值，但这通常在计算相似性之后作为分数乘数处理。

经常使用ln（TF）代替原始TF分数作为归一化特征，因为看到1和2次的术语之间的差异比看到术语100和200之间的差异更重要;它也保持了过度使用一个主导矢量的术语，并且通常更加健壮。

2017-06-17 03:12:37

感谢您的意见。我有一个问题..我发现“Ngram”只是使用TF。 Ngram是否需要规范文档？我认为tf-idf和Ngram有相似的算法。 – Acool5

@ Acool5它是完全相同的算法，唯一的区别是使用ngrams时，进入的术语集通常会增加。 –

回答