2017-09-15 1635 views
0

我开始在kaggle。什么是训练和测试数据集

我通过各种数据的科学和机器学习竞争

我已经知道,对于每一场比赛他们都上传训练数据测试数据原始数据不见了。

有人可以解释我是什么,以及如何在解决问题时使用这些数据集。

+0

我投票结束这个问题,因为它涉及到[机器学习,而不是软件开发](// meta.stackoverflow.com/q/291009/1233251)。您可以在[交叉验证](// stats.stackexchange.com)或[DataScience.SE](// datascience.stackexchange.com)上提出这些问题。 –

回答

0

培训数据:用于培训AI。
测试数据:用于评估使用先前训练数据的AI的强度。
原始数据:嗯,这是原始数据。

在进行机器学习时,必须以某种方式训练AI。这就是为什么我们将数据分解开来,并给AI提供原始数据(训练数据)的子集,以便它可以学习。我们用测试数据测试它的知识,然后一旦完成,我们就可以将它提供给原始数据,看看它是如何做到的。

0

在ML中,原始数据集被分为训练集和测试集(有时还包括交叉验证集)。

训练集: 您用于拟合算法参数的数据集。

测试集: 用于评估算法的参数准确度的数据集。

训练集,测试集拆分通常分别为80%,20%或70%,30%。 建议在进行分割之前将原始数据集进行随机化处理。请记住,在ML中,用于拟合参数的数据集的错误总是较低。永远不要使用训练集来评估你的算法。

0

为了评估一个训练好的模型在看不见的数据上的表现如何, 你必须将原始数据分成单独的训练和测试集。

from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test= train_test_split(features_all,pred_var,test_size=0.3, random_state=42) 

有了这个,你随机分裂特征和y数组到30%的测试数据和70%的训练数据。然后,你适合你的回归模型,如下

from sklearn.linear_model import LinearRegression 
reg = LinearRegression() 
reg.fit(X_train,y_train) # fit regressor to training data 
y_pred = reg.predict(X_test) # predict on test data 

希望得到这个帮助。

相关问题