我工作的机器学习(数据挖掘)项目,而不编码两种分类和连续属性,我用数据探索和数据准备步骤中完成,它是在做蟒蛇!多类多输出分类与蟒蛇
现在我面临这个问题:我有我的数据集中的分类属性。 经过研究,我发现这种数据最适合的算法是决策树或随机forrest分类器!
但我读过有关决策树分类属性的一些类似的问题,发现我使用(scikit学习)库不与categoricasl属性的作品。根据this答案检查here和here,为使其与分类,我需要我的分类变量编码成数字的人工作,但我不希望使用的编码,因为我将失去我的属性的一些性质和一些信息,也有一些我的属性有超过100个不同的值。
所以我想知道:
- 是那里,可以建立与分类数据决策树不进行任何编码任何其他Python库?
- 在this答案是表明像WEKA其他库可以建立决策树木分类属性,所以我的问题是,我可以在同一台机器学习项目结合2语言?
将在python中进行数据探索和准备,在weka(java)中训练模型,并将其部署到python-flask web应用程序中? 可以吗?
好的!感谢您的回复@Imran,所以我会尝试一个热门的编码声音好,但会增加我的数据集的维度,所以不得不忘记决策树并尝试像SVN和NN这样的强分类器。 –