tf-idf：使用它是否有助于衡量共享条件高于不是文档的文档？

我正在为网站定制搜索功能。我很好奇，如果仅使用tf-idf对我的语料库中的文档进行排名，也将有助于权衡比只有一个搜索词的文档更高的多个搜索词的文档。tf-idf：使用它是否有助于衡量共享条件高于不是文档的文档？

示例：搜索=“波兰泉水” 理论上，如果文档包含100次“波兰”和0次“水”，上述查询将使用传统tf-idf来衡量更高的文档。或者，如果它包含10次“波兰”和10次“水”，则它会称重文件。

我知道这一切都取决于“波兰”和“水”的tf-idf值，但理论上在一个平坦的运动场上，该算法是否有助于将文档带到结果的顶部，如果有的话文件中有多个术语，还是真的是术语独立？

2010-10-04 Joe

嘿。我的回答有错吗？ – Programmer 2011-05-21 06:51:49

它是独立的术语。请记住，tf-idf称重方案将查询视为一包单词，并将每个文档视为一个矢量。对于上面的例子，考虑波兰的tf是100，而文档x中它的idf是1。另外，考虑波兰的tf是10，水的tf是2是文件y。水的IDF是1

得分文档的X = 100 得分DOC Y的= 12

DOC X排名更高虽然具有一个术语。

2011-05-11 20:32:40 Programmer

其术语独立。取决于有多少文件包含波兰和多少包含水的比例。那比例。如果它的一半，比第二个文件胜。如果比例为100：1，那么第一个文档会胜出，因为这个比率更类似于单词的文档内分布。

回答