2012-02-06 58 views
0

我们假设用户投票选出一些电影,比例为1到5.这些电影有类型信息,而电影可以有多个类型。像这样:寻找评分值为最喜欢的用户的项目

Movie A Rating 4 
Action/Sci-Fi 

Movie B Rating 5 
Comedy/Action 

Movie C Rating 4 
Comedy/Drama 

我们想要了解哪种流派喜欢我们的用户。在这里,我们有我们的结果集:

Genre Movie_Count Average_Rating 

---------- 
Action 2 5 
Comedy 2 4.5 
SciFi 1 4 
Drama 1 4 

显然,我们不能用这么小的结果集预测什么,但让我们假设,我们已经一个更大的数据集。

使用此项的数据,我们如何排列这个使用者中最偏好的类型?简单地计算加权平均或更复杂的东西?

回答

1

我在这里看到的主要问题是:

用户速率1000喜剧电影平均得分为4部

用户率10动作电影,平均得分为4.1

你如何订购它们?

请参阅http://www.evanmiller.org/how-not-to-sort-by-average-rating.html讨论和一个可能的解决方案。

的另一个问题是:

如果影片既喜剧和动作,并给出等级4.0,多少是因为它是喜剧或动作?

您可以使用期望最大化http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm解决此问题。