2010-10-04 71 views
1

我正在为网站定制搜索功能。我很好奇,如果仅使用tf-idf对我的语料库中的文档进行排名,也将有助于权衡比只有一个搜索词的文档更高的多个搜索词的文档。tf-idf:使用它是否有助于衡量共享条件高于不是文档的文档?

示例:搜索=“波兰泉水” 理论上,如果文档包含100次“波兰”和0次“水”,上述查询将使用传统tf-idf来衡量更高的文档。或者,如果它包含10次“波兰”和10次“水”,则它会称重文件。

我知道这一切都取决于“波兰”和“水”的tf-idf值,但理论上在一个平坦的运动场上,该算法是否有助于将文档带到结果的顶部,如果有的话文件中有多个术语,还是真的是术语独立?

+0

嘿。我的回答有错吗? – Programmer 2011-05-21 06:51:49

回答

1

它是独立的术语。请记住,tf-idf称重方案将查询视为一包单词,并将每个文档视为一个矢量。对于上面的例子,考虑波兰的tf是100,而文档x中它的idf是1。另外,考虑波兰的tf是10,水的tf是2是文件y。水的IDF是1

得分文档的X = 100 得分DOC Y的= 12

DOC X排名更高虽然具有一个术语。

0

其术语独立。取决于有多少文件包含波兰和多少包含水的比例。那比例。如果它的一半,比第二个文件胜。如果比例为100:1,那么第一个文档会胜出,因为这个比率更类似于单词的文档内分布。

相关问题