0

我基于查询 - 文档对之间的文本相似性(余弦相似度)创建了两阶段排序系统。现在我需要验证我的排名系统,检索的适合排名的项目是否正确与用户有关,我应该选择哪种方法。我阅读了Pointwise/Pairwise/Listwise方法来验证排名,但是对于排名系统的手动评估,这会更有帮助。如果有人能够启发更好的排名评估策略,那对我来说会很有帮助。谢谢两阶段文档检索中的排序评估方法

回答

0

如果我正确地得出问题,您正在寻找一种评估方法来确定您的两阶段检索系统是否正常工作。如果这是真的,你可以使用下面的评价方法之一:

  • 相关性判断:可以使用TREC类藏品有几百个查询和明确的相关性判断,并使用IR评价指标(如地图,P @ 10,NDCG等)来评估你的模型。
  • A/B测试:事实上,您可以在检索系统的第二阶段显示初始结果和重新排名的结果,并要求用户判断重新排名的结果是否更好。
  • 点击数据:如果您有权访问搜索引擎日志,则可以使用用户的点击信息来评估您的模型。为此,您应该了解一些偏见问题,例如位置偏见问题。

在上述策略中,第一个策略应该更容易,更便宜。你只需要访问TREC数据,这不是私有的(但你需要支付几百美元才能访问大部分数据)。