我正在使用基于项目的协作过滤器为餐馆创建推荐的推荐引擎。每家餐馆的评论评分从1到5。
每个推荐算法都会遇到数据稀疏问题,所以我一直在寻找解决方案来计算正确的相关性。基于项目的协作过滤器的最小数据量
我在餐厅之间使用调整后的余弦相似度。
当您想计算餐厅之间的相似度时,您需要评价这两家餐厅的用户。但是,对两家餐厅进行评分以获得正确关联的用户的最小数量是多少?
从测试中,我发现有一组用户对两家餐厅进行评分会导致不良的相似性(很明显)。通常它是-1或1.所以我将它增加到了两个同时拥有餐厅的用户,这给了我更好的相似之处。我发现很难确定这种相似性是否足够好。有没有一种方法可以检验这种相似性的准确性,还是有关于最小值如何的准则?