2013-05-10 39 views
5

我想读的IRStatisticsImpl数据,但有一些问题:如何解释象夫IRStatisticsImpl数据

我的结果是:

IRStatisticsImpl[precision:0.04285714285714287,recall:0.04275534441805227,fallOut:0.0018668022652391654,nDCG:0.04447353132522083,reach:0.997624703087886] 

没有意思,我只拿到4%的好建议(精确)和大约相同水平的不良推荐(召回)?

最好的数字应该是什么样子 - 精度为1.0,回忆为0.0?

回答

2

嘛,顾名思义:

精密表示有多少结果是在结果集中正确的。 召回表示测试集中的正确元素必须被选择为正确并在结果集中选取的概率。

要成为完美精度和召回率应该都是100%。必须根据您的域名评估有关这些值的良好结果和标准。

例如,如果您有一个有好的和不好的蘑菇桶,无论您的召回率有多低,您都应该瞄准100%的精度。因为精确度对你的健康至关重要,所以你甚至可以留下很多好的蘑菇。重要的是不是吃的丑陋的。 你可以挑一个好的蘑菇,所以你的精确度是100%,但是如果你的桶里有四个好的蘑菇,你的召回率是25%。 理想情况下,如果精度和召回率都是100%,意味着您的结果集中所有的蘑菇都很好,并且所有好的蘑菇都在您的结果集中,而且没有一个在您的测试集中。

所以值可能有不同的含义。

可悲的是你的结果看起来非常难看,因为你有很多误报和太多的假阴性。

看一看here

+0

你能告诉我,'fallOut'和'nDCG'的数字应该如何?它们应该是1.0还是0.0? – ulkas 2013-05-20 07:35:42

+0

顾名思义,fallOut是“从所有可用的非相关文档中检索到的非相关文档的比例:”http://en.wikipedia.org/wiki/Information_retrieval#Fall-out据我所知,它应该尽可能低,但它也很容易得到0%,所以你可能会评估你的域名。 – gpicchiarelli 2013-05-20 08:32:34

+0

关于nDCG,它是DCG的标准化版本,意思是“折扣累积收益”。确切地说,在这里看看http://en.wikipedia.org/wiki/Discounted_cumulative_gain – gpicchiarelli 2013-05-20 08:42:15