我正在为网站定制搜索功能。我很好奇,如果仅使用tf-idf对我的语料库中的文档进行排名,也将有助于权衡比只有一个搜索词的文档更高的多个搜索词的文档。tf-idf:使用它是否有助于衡量共享条件高于不是文档的文档?
示例:搜索=“波兰泉水” 理论上,如果文档包含100次“波兰”和0次“水”,上述查询将使用传统tf-idf来衡量更高的文档。或者,如果它包含10次“波兰”和10次“水”,则它会称重文件。
我知道这一切都取决于“波兰”和“水”的tf-idf值,但理论上在一个平坦的运动场上,该算法是否有助于将文档带到结果的顶部,如果有的话文件中有多个术语,还是真的是术语独立?
嘿。我的回答有错吗? – Programmer 2011-05-21 06:51:49