2015-04-06 58 views
1

我是一个机器学习的完全新手,虽然我有一些sci-kit分类器“工作”在我的数据集上,但我不确定我是否正确使用它们。我正在用标有训练集的手做监督学习。如何选择和使用不同数据类型的功能?

问题是:我的数据集中的每个项目都是一个字典, 80个键,它们是文本,布尔值或我想用作要素的整数。我有大约40,000件物品,并且手上标有大约800件物品。我的意思是选择,例如,只使用布尔功能,或只有整数?我是否需要规范化特征(将平均值+规模去除到单位差异)?我目前甚至不会尝试对文本进行分析,因此甚至可能不会将这些功能提供给分类器。试试相同类型的特征(整数)的各种排列/组合是否愚蠢?这也可能是我接近我的数据集完全错误...它的形状如下:

[[a,b,c,...],[a,b,c,...], [a,b,c,...],...]

本质上,我希望实现的是数据集中每个项目的二进制分类,根据我的理解,基本上只是“好”或“差”手被贴上标签。我发现有些分类器在不同的数据类型上工作得更好,比如伯努利朴素贝叶斯和K最近邻居,当“决策边界非常不规则”时。

最后我想分类精度在几个不同的算法进行比较,除了希望隔离一个是我的数据分类实际上准确...

回答

3

在所有分类scikit学习需要的数字数据。布尔特性很好,整数特性取决于它们是编码分类,序数还是数字数据。

您需要执行的预处理取决于功能的类型,而不取决于您是否要合并它们。将它们结合起来可能是一个好主意。

您可以使用CountVectorizer或TFIDFVectorizer对文本数据进行简单转换。

+0

谢谢,我欣赏它! – veksev

相关问题