2014-09-06 48 views

回答

3

你可以尝试训练一个类的SVM,看看给你什么样的结果。我还没有听说过PU纸。我认为对于所有实际的目的,你会更好地标记一些点,然后使用半监督方法。 如果发现负面的问题很难,我会​​尝试使用启发式技术来找出可能的负面观点(我认为它与PU论文中的技术相似)。您可以将未标记的与正的分类,然后只查看未标记的得分较高的分类,或者学习单类SVM或类似分类,然后在异常值中查找负值点。

如果你有兴趣真正解决这个问题,我宁愿投入时间进行人工贴标签,而不是实施奇特的方法。

+1

谢谢安德烈亚斯,手动标记将是最后的手段。我在[larsman](http://stackoverflow.com/users/166749/larsmans)上查看了https://github.com/larsmans/scikit-learn/tree/pu-learning,以及[pemistahl]( http://stackoverflow.com/users/1125413/pemistahl)。 scikit-learn是否具有onc级的SVM实现? – imkhan 2014-09-08 07:11:38

+1

oneclasssvm:http://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html#sklearn.svm.OneClassSVM – imkhan 2014-09-08 09:13:22

+0

该代码已有三年历史,但您可以向larsmans咨询。虽然他似乎没有跟进,但是;)你在谈论什么样的规模?多少个标签/未标签?我认为手工标签应该是你的第一个,而不是最后的手段。你如何评估没有地面真实注释的结果? – 2014-09-09 10:09:34