2010-06-17 83 views
3

我很好奇如何为排序算法做数字正火什么是最好的方式来标准化分数排名的东西?

比方说,我想根据重要性进行排名的链接,我有两列

工作,使表看起来像

url |评论|意见

现在我想排名高于意见的评论,所以我会首先考虑做的评论* 3或东西来衡量它,但是,如果有一个像40,000大观点数字,只有4个评论然后评论权重下降出。

所以我想我必须将这些分数归一化为更平等的比赛场,然后才能对它们进行加权。任何想法或指示如何通常完成?

感谢

回答

5

每个网址,你可以先正常化的评论和意见,以一个百分点。例如,

comment_percentile = (comments - min(comments))/(max(comments) - min(comments)) 
views_percentile = (views - min(views))/(max(views) - min(views)) 

然后,您可以为每个百分点值分配权重以计算总体分数。

url_score = (comment_percentile_weight * comment_percentile) + (views_percentile_weight * views_percentile) 

其他策略可能涉及消除异常值,如果值集中在范围的一端。

+2

我不认为这是如何百分位的作品,但我可能是错的 – 2010-06-17 04:42:27

+0

你是正确的d03boy!谢谢你的收获。希望更新后的文章效果更好。 – btreat 2010-06-17 04:47:21

+0

沿着同样的路线,您可以将每列标准化为等于最大值的百分比,或者甚至标准化它们,以便列中的所有项目总和为1(即,使每一列为总和的百分比)。 – 2010-06-17 05:08:07

1

重要性实际上是一种通知用户他对论坛主题或博客位置有多兴趣的方式。在这种情况下,你不能只乘以不同因素的两个数字,并添加:)

你怎么能说一个博客与2000年的意见和只有一个评论。好吧,也许这是一个垃圾邮件,或者它被网络爬虫查看,或者它是如此无聊,以至于没有人决定对它发表评论。

在这种情况下,我们可能希望查看评论与视图的比率。我原来的帖子会有一个1/2000的“兴趣比例”,而这篇帖子现在有28个视图和1个评论,它的得分是1/28。

最大比例获胜。顺便说一句,如果你的比率超过一个......那么,开始寻找错误:)

相关问题