2012-02-22 233 views
1

我正在试验一些电影评级数据。目前正在做一些混合项目和基于用户的预测。在数学上,我不确定如何实现我想要的,也许答案只是直截了当的权重,但我觉得可能有其他选择。加权平均值趋于中心

我有4个值,现在,我想基于

  1. 项目预测的平均
  2. 基于用户的预测
  3. 全球电影平均为给定项目
  4. 全球用户平均给定用户

由于这个progesses我会需要添加其他值,如加权simil arity,流派权重和我相信其他一些事情。

现在我想集中讨论如上所述的可用数据,以便理解为其他任何内容。

这是我的理论。要开始,我想要权衡项目和基于用户的预测,这将比全球平均值更重。

虽然我觉得我的生锈的数学和一些基本的尝试提出一个不太线性的解决方案是使用像谐波的意思。但并非天然地倾向于低平均值倾向于全球平均值。

预测项目基地评级4.5

预测基于用户评价2.5

全球电影分级3.8

全球用户评分3.6

因此“中心“/全球平均在这里将是3.7

我可能会离开基地,因为我的数学是相当生疏,但任何想法如何我可以用数学表示我在想什么?

OR

你有不同的做法

+0

netflix奖由“分层”SVD算法赢得。 – wildplasser 2012-02-23 00:03:13

+0

事实上,在那个时候我有点不在。为了学习的目的,我正在尝试这条路线,看看我能够走多远。我看了SVD,但还不确定我可能会如何实现它。 – 2012-02-23 00:14:04

回答

1

我建议你寻找到“推荐系统手册”由F.利玛窦等人有任何想法,2011年它总结了所有常见的方法推荐引擎并提供所有必要的公式。
下面是从4.2.3的摘录:

作为在预测的增加使用邻居的数目,由回归方法预测会向均值评价项目i的倾向的评价。假设项目i只在评分范围的任何一端都有评分,即被爱或恨,那么回归方法会作出安全的决定,即该项目的价值是平均值。 [...]另一方面,分类方法将预测评级为最常见的给予我。由于该商品将被标记为“好”或“坏”,因此这样做更具风险。