仅有正和未标记数据集的二元半监督分类

我的数据由评论（保存在文件中）组成，其中很少有标记为肯定的。我想用半监督和PU分类将这些评论分为正面和负面的类。我想知道在python（scikit-learn）中是否有半监督和PU实现的公共实现？仅有正和未标记数据集的二元半监督分类

2014-09-06 imkhan

你可以尝试训练一个类的SVM，看看给你什么样的结果。我还没有听说过PU纸。我认为对于所有实际的目的，你会更好地标记一些点，然后使用半监督方法。如果发现负面的问题很难，我会尝试使用启发式技术来找出可能的负面观点（我认为它与PU论文中的技术相似）。您可以将未标记的与正的分类，然后只查看未标记的得分较高的分类，或者学习单类SVM或类似分类，然后在异常值中查找负值点。

如果你有兴趣真正解决这个问题，我宁愿投入时间进行人工贴标签，而不是实施奇特的方法。

来源

2014-09-07 21:40:25

谢谢安德烈亚斯，手动标记将是最后的手段。我在[larsman]（http://stackoverflow.com/users/166749/larsmans）上查看了https://github.com/larsmans/scikit-learn/tree/pu-learning，以及[pemistahl]（ http://stackoverflow.com/users/1125413/pemistahl）。 scikit-learn是否具有onc级的SVM实现？ – imkhan 2014-09-08 07:11:38

oneclasssvm：http://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html#sklearn.svm.OneClassSVM – imkhan 2014-09-08 09:13:22

该代码已有三年历史，但您可以向larsmans咨询。虽然他似乎没有跟进，但是;）你在谈论什么样的规模？多少个标签/未标签？我认为手工标签应该是你的第一个，而不是最后的手段。你如何评估没有地面真实注释的结果？ – 2014-09-09 10:09:34

仅有正和未标记数据集的二元半监督分类

回答

相关问题