什么是训练和测试数据集

我通过各种数据的科学和机器学习竞争

我已经知道，对于每一场比赛他们都上传训练数据，测试数据和原始数据不见了。

有人可以解释我是什么，以及如何在解决问题时使用这些数据集。

2017-09-15 Abhishek Sharma

我投票结束这个问题，因为它涉及到[机器学习，而不是软件开发]（// meta.stackoverflow.com/q/291009/1233251）。您可以在[交叉验证]（// stats.stackexchange.com）或[DataScience.SE]（// datascience.stackexchange.com）上提出这些问题。 –

培训数据：用于培训AI。
测试数据：用于评估使用先前训练数据的AI的强度。
原始数据：嗯，这是原始数据。

在进行机器学习时，必须以某种方式训练AI。这就是为什么我们将数据分解开来，并给AI提供原始数据（训练数据）的子集，以便它可以学习。我们用测试数据测试它的知识，然后一旦完成，我们就可以将它提供给原始数据，看看它是如何做到的。

来源

2017-09-15 18:58:40

在ML中，原始数据集被分为训练集和测试集（有时还包括交叉验证集）。

训练集：您用于拟合算法参数的数据集。

测试集：用于评估算法的参数准确度的数据集。

训练集，测试集拆分通常分别为80％，20％或70％，30％。建议在进行分割之前将原始数据集进行随机化处理。请记住，在ML中，用于拟合参数的数据集的错误总是较低。永远不要使用训练集来评估你的算法。

来源

2017-09-15 19:11:45 rn4

为了评估一个训练好的模型在看不见的数据上的表现如何，你必须将原始数据分成单独的训练和测试集。

from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test= train_test_split(features_all,pred_var,test_size=0.3, random_state=42)

有了这个，你随机分裂特征和y数组到30％的测试数据和70％的训练数据。然后，你适合你的回归模型，如下

from sklearn.linear_model import LinearRegression 
reg = LinearRegression() 
reg.fit(X_train,y_train) # fit regressor to training data 
y_pred = reg.predict(X_test) # predict on test data

希望得到这个帮助。

来源

2017-09-15 20:17:53 1dre

什么是训练和测试数据集

回答

相关问题