2013-04-28 78 views
1

我想了解MAXent分类器的classifier.show_most_informative_features(10)。我不明白的列表示,例如在下面的输出:MAXent分类器NLTK输出理解

train on 460 instances, test on 154 instances accuracy: 0.61038961039 
pos precision: 0.432989690722 
pos recall: 0.893617021277 
neg precision: 0.912280701754 
neg recall: 0.485981308411  
-4.141 need==True and label is 'REL'  
3.395 approves==True and label is 'IRREL' - 
3.308 took==True and label is 'IRREL' 
-1.766 treat==True and label is 'REL' 
-1.488 tired==True and label is 'IRREL' 
-1.295 gave==True and label is 'IRREL' 
0.879 need==True and label is 'IRREL' 
+0

你能分享一下代码吗?你是如何生成所有精度和召回值的? – 2013-09-11 03:11:47

回答

1

看来,你有两个标签,"RELEVANT""IRRELEVANT"。当有两个标签时,一个通常命名为“1”或正面,另一个为“-1”或负面。

在训练过程中,分类器分析了460个训练实例的特征,并根据它们区分两个标签的能力对它们进行加权。加权过程的细节取决于您选择的算法。

Poitive精度:即在测试过程中被划分为标记1真的有标签154个测试实例 43%1.

正召回:在测试的标签1个实例 89%设置被发现,即分类为标签1.

负精度/负回忆是相同的,但是对于标签-1。

准确性: 154个测试实例中有61%被正确标记。

这些特征根据它们的绝对值排序,这与它们与分类的相关性相对应。在这种情况下,最“有用”的功能是需要,如果它是真的,这是一个非常好的提示,该实例的标签应该是“相关的”。

+0

这很有用 - 但是,您可以点亮功能排名中+ ve和-ve数字的重要性吗? – 2017-09-12 19:00:44