如何使用具有不同特征维度的数据集来训练sklearn分类器？

我有这种类型的数据集。如何使用具有不同特征维度的数据集来训练sklearn分类器？

Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal 
------------------------------------------------------------------ 
    Bread  | Butter  |  -  |  -  | buttered bread 
    Avocado | Tomato  |  Garlic |  -  | Guacamloe

我想训练sklearn决策树分类器，但我不知道如何处理我的数据集的变化特征维度。理想情况下，我希望空单元格被忽略。我想用nan's取代空单元格，但sklearn不接受nan的单元格。有没有像sklearn这样使用数据集的方法？

来源

2017-06-16 SPA

我相信你可以为此使用稀疏矩阵 – mkaran

你应该编码数据作为矢量像这样：

(Avocado, Bread, Butter, Garlic, Tomato) 
(0,1,1,0,0) = 'Buttered Bread' 
(1,0,0,1,1) = 'Guacamloe'

向量中的每个元素表示一个特定的成分的存在。您可以将此格式的数据直接送入任何分类器，并且您不会遇到隐式排序问题。

来源

2017-06-16 15:15:55

如何使用具有不同特征维度的数据集来训练sklearn分类器？

回答

相关问题