2016-01-22 124 views
1

我有一个数组,其中第一列是类(以整数形式),其余列是功能。如何创建scikit学习数据集?

SG这样

1,0,34,23,2 
0,0,21,11,0 
3,11,2,11,1 

我怎样才能把它变成一个scikit兼容的数据集,所以我可以调用SG像 mydataset = datasets.load_mydataset()?

回答

2

您可以简单地使用熊猫。例如如果您已将数据集复制到dataset.csv文件。只需在csv文件中适当标注列即可。

In [1]: import pandas as pd 

In [2]: df = pd.read_csv('temp.csv') 

In [3]: df 
Out[3]: 
    Label f1 f2 f3 f4 
0  1 0 34 23 2 
1  0 0 21 11 0 
2  3 11 2 11 1 

In [4]: y_train= df['Label'] 

In [5]: x_train = df.drop('Label', axis=1) 

In [6]: x_train 
Out[6]: 
    f1 f2 f3 f4 
0 0 34 23 2 
1 0 21 11 0 
2 11 2 11 1 

In [7]: y_train 
Out[7]: 
0 1 
1 0 
2 3 
+0

非常感谢 – giorgio79

+0

永远欢迎:) –