2016-07-26 94 views
-3

如何使用波纹管训练数据将新数据集分为A类和B类?如何分类数据集?

  1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 class 
Dataset 1 42 13 22 324 270 96 107 93 80 228 A 
Dataset 2 45 23 14 596 445 135 153 124 132 331 A 
Dataset 3 42 22 16 479 407 130 150 121 128 342 A 

Dataset 4 37 63 10 481 397 155 143 159 172 394 B 
Dataset 5 46 18 10 387 356 127 118 129 136 359 B 
Dataset 6 23 34 9 550 436 147 166 164 208 467 B 

如果有一个方程可以分割数据集,那将是非常理想的。

例如,如果1.0 +#0.9#比55高是A类(这可能是错误的,但这样的事情)

+0

想到的第一个想法是:使用装袋/助推使10个分类器中的每一个都基于平均值进行投票。 http://stats.stackexchange.com/questions/18891/bagging-boosting-and-stacking-in-machine-learning – Babyburger

回答

1

如果你熟悉分类的任务,它的任务可以用做几乎所有的分类算法如SVM,NN,C4.5,ID3,Random Forest和..

但是对于表述看看Logistic回归:https://en.wikipedia.org/wiki/Logistic_regression。它的分类数据集2(例如:正面,负面)类

对于implenetation,看看蟒蛇scikit线性模型,逻辑回归: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html这里:http://scikit-learn.org/stable/modules/linear_model.html#logistic-regression

X = [[...]] #your datasets list of lists(matrix) 
y = [...] #your labels list 
from sklearn.liner_mode import LogisticRegression 
clf = LogisticRegresion() 
clf.fit(X,y) 

这个例子也可以很好:http://scikit-learn.org/stable/auto_examples/linear_model/plot_iris_logistic.html

0

你也可以使用朴素贝叶斯来预测数据集的类别,通过使用朴素贝叶斯你可以得到每个类的概率,所以在你举例说明你会得到数据集1的概率为70% B类为30%

根据您例如,你需要使用类列作为你的标签栏和和0.1 & 0.9为你配备了列

与您的数据,便于

运行我花了== 1 &乙== 2本运行 enter image description here