我有一个特征数据集“X”和一个标签数据集“Y”。现在在这个问题中,我只允许使用X数据集,并仅将Y用于参考。使用K-means推导标签然后使用分类器进行训练(python)
我正在使用sklearn的Kmeans算法来预测要素数据集的标签。但是通过使用已经分配的标签比较派生标签,Kmeans错误地分类了大约40%的标签。
因此,我已决定使用Kmeans来导出标签和分类算法,以适应和预测使用X和派生标签,以获得更好的准确性。
此策略是否有效,并可能有人建议我一个很好的分类算法,我可以用于此目的?谢谢。
在sklearn的Kmeans文档中给出了分类器默认为Kmeans ++,所以我不认为我必须改变任何内容。 – user3466132 2014-12-08 00:09:43
你说得对,我现在也自己找到了正确的文档。在这种情况下,如果您确定代码中没有错误,那么您的结果不太可能使用k-means进一步改进。为了了解根据数据可以预期什么样的分类结果,K-最近邻居通常被用作基线测量。 – Semi 2014-12-08 00:54:42