1

我有这种类型的数据集。如何使用具有不同特征维度的数据集来训练sklearn分类器?

Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal 
------------------------------------------------------------------ 
    Bread  | Butter  |  -  |  -  | buttered bread 
    Avocado | Tomato  |  Garlic |  -  | Guacamloe 

我想训练sklearn决策树分类器,但我不知道如何处理我的数据集的变化特征维度。理想情况下,我希望空单元格被忽略。我想用nan's取代空单元格,但sklearn不接受nan的单元格。有没有像sklearn这样使用数据集的方法?

+0

我相信你可以为此使用稀疏矩阵 – mkaran

回答

1

你应该编码数据作为矢量像这样:

(Avocado, Bread, Butter, Garlic, Tomato) 
(0,1,1,0,0) = 'Buttered Bread' 
(1,0,0,1,1) = 'Guacamloe' 

向量中的每个元素表示一个特定的成分的存在。您可以将此格式的数据直接送入任何分类器,并且您不会遇到隐式排序问题。

相关问题