如何选择和使用不同数据类型的功能？

我是一个机器学习的完全新手，虽然我有一些sci-kit分类器“工作”在我的数据集上，但我不确定我是否正确使用它们。我正在用标有训练集的手做监督学习。如何选择和使用不同数据类型的功能？

问题是：我的数据集中的每个项目都是一个字典， 80个键，它们是文本，布尔值或我想用作要素的整数。我有大约40,000件物品，并且手上标有大约800件物品。我的意思是选择，例如，只使用布尔功能，或只有整数？我是否需要规范化特征（将平均值+规模去除到单位差异）？我目前甚至不会尝试对文本进行分析，因此甚至可能不会将这些功能提供给分类器。试试相同类型的特征（整数）的各种排列/组合是否愚蠢？这也可能是我接近我的数据集完全错误...它的形状如下：

[[a，b，c，...]，[a，b，c，...]， [a，b，c，...]，...]

本质上，我希望实现的是数据集中每个项目的二进制分类，根据我的理解，基本上只是“好”或“差”手被贴上标签。我发现有些分类器在不同的数据类型上工作得更好，比如伯努利朴素贝叶斯和K最近邻居，当“决策边界非常不规则”时。

最后我想分类精度在几个不同的算法进行比较，除了希望隔离一个是我的数据分类实际上准确...

来源

2015-04-06 veksev

在所有分类scikit学习需要的数字数据。布尔特性很好，整数特性取决于它们是编码分类，序数还是数字数据。

您需要执行的预处理取决于功能的类型，而不取决于您是否要合并它们。将它们结合起来可能是一个好主意。

您可以使用CountVectorizer或TFIDFVectorizer对文本数据进行简单转换。

来源

2015-04-06 18:56:24

谢谢，我欣赏它！ – veksev

如何选择和使用不同数据类型的功能？

回答

相关问题