2
当使用TF-IDF比较文档A时,B 我知道文档长度并不重要。 但是在这种情况下,与A-B相比,A-C ,我认为文件B,C的长度应该是相同的长度。tf-idf:我应该对文档长度进行规范化
例如 日志:100个字 文献A:20个词语 文献B:30个字
日志 - A的TF-IDF评分:0.XX 日志 - B的TF-IDF评分:0.xx
我应该对文档A,B进行规范化吗? (如果比较目标不同,它似乎是一个问题或错误的结果)
感谢您的意见。我有一个问题..我发现“Ngram”只是使用TF。 Ngram是否需要规范文档?我认为tf-idf和Ngram有相似的算法。 – Acool5
@ Acool5它是完全相同的算法,唯一的区别是使用ngrams时,进入的术语集通常会增加。 –