多类多输出分类与蟒蛇

我工作的机器学习（数据挖掘）项目，而不编码两种分类和连续属性，我用数据探索和数据准备步骤中完成，它是在做蟒蛇！多类多输出分类与蟒蛇

现在我面临这个问题：我有我的数据集中的分类属性。经过研究，我发现这种数据最适合的算法是决策树或随机forrest分类器！

但我读过有关决策树分类属性的一些类似的问题，发现我使用（scikit学习）库不与categoricasl属性的作品。根据this答案检查here和here，为使其与分类，我需要我的分类变量编码成数字的人工作，但我不希望使用的编码，因为我将失去我的属性的一些性质和一些信息，也有一些我的属性有超过100个不同的值。

所以我想知道：

是那里，可以建立与分类数据决策树不进行任何编码任何其他Python库？
在this答案是表明像WEKA其他库可以建立决策树木分类属性，所以我的问题是，我可以在同一台机器学习项目结合2语言？

将在python中进行数据探索和准备，在weka（java）中训练模型，并将其部署到python-flask web应用程序中？可以吗？

来源

2017-07-18 Espoir Murhabazi

的answer您有关编码分类输入链接只是说你应该避免数值的编码时，您的类别不具有内在的秩序。它正确地建议您在这种情况下使用一个热门编码。

简单地说，机器学习模型上的号码进行操作，因此，即使你发现你需要原料类没有明确的编码库，但仍必须在内部对其进行编码，然后才能执行任何计算。

100个类别不是很多，大多数书架库将处理这样的输入就好了。我推荐你试试xgboost

来源

2017-07-18 18:16:27 Imran

好的！感谢您的回复@Imran，所以我会尝试一个热门的编码声音好，但会增加我的数据集的维度，所以不得不忘记决策树并尝试像SVN和NN这样的强分类器。 –

多类多输出分类与蟒蛇

回答

相关问题