训练组的头看起来如此训练集后归一化应该怎样测试集做
Session ID Timestamp Item ID Price Quantity
0 420374 2014-04-06T18:44:58.314Z 214537888 12462 1
1 420374 2014-04-06T18:44:58.325Z 214537850 10471 1
2 281626 2014-04-06T09:40:13.032Z 214535653 1883 1
3 420368 2014-04-04T06:13:28.848Z 214530572 6073 1
4 420368 2014-04-04T06:13:28.858Z 214835025 2617 1
所以我预处理的数据,通过柱使他们归列,它们适合SGDClassifier。
from sklearn import linear_model
from sklearn import preprocessing as pp
scaler = pp.MinMaxScaler()
columns_list = list(train_data.columns)
del columns_list[-1]
train_data[columns_list] = scaler.fit_transform(train_data[columns_list])
clf = linear_model.SGDClassifier()
clf.fit(train_data.iloc[:, :-2],train_data.iloc[:,-1])
然后我想用模型,如clf.predict()
但产地测试集预测应该是以下格式。
Session ID Timestamp Item ID Price Quantity
0 420374 2014-04-06T18:44:58.314Z 214537888 12462 1
那么我是否需要让它们用训练集进行规范化?
模型期望的测试数据是什么?
测试数据需要什么预处理?