0

我工作的机器学习(数据挖掘)项目,而不编码两种分类和连续属性,我用数据探索和数据准备步骤中完成,它是在做蟒蛇!多类多输出分类与蟒蛇

现在我面临这个问题:我有我的数据集中的分类属性。 经过研究,我发现这种数据最适合的算法是决策树或随机forrest分类器!

但我读过有关决策树分类属性的一些类似的问题,发现我使用(scikit学习)库不与categoricasl属性的作品。根据this答案检查herehere,为使其与分类,我需要我的分类变量编码成数字的人工作,但我不希望使用的编码,因为我将失去我的属性的一些性质和一些信息,也有一些我的属性有超过100个不同的值。

所以我想知道:

  • 是那里,可以建立与分类数据决策树不进行任何编码任何其他Python库?
  • this答案是表明像WEKA其他库可以建立决策树木分类属性,所以我的问题是,我可以在同一台机器学习项目结合2语言?

将在python中进行数据探索和准备,在weka(java)中训练模型,并将其部署到python-flask web应用程序中? 可以吗?

回答

1

answer您有关编码分类输入链接只是说你应该避免数值的编码时,您的类别不具有内在的秩序。它正确地建议您在这种情况下使用一个热门编码。

简单地说,机器学习模型上的号码进行操作,因此,即使你发现你需要原料类没有明确的编码库,但仍必须在内部对其进行编码,然后才能执行任何计算。

100个类别不是很多,大多数书架库将处理这样的输入就好了。我推荐你试试xgboost

+0

好的!感谢您的回复@Imran,所以我会尝试一个热门的编码声音好,但会增加我的数据集的维度,所以不得不忘记决策树并尝试像SVN和NN这样的强分类器。 –