2017-06-22 93 views
0

我最近开始学习Python中的一些基本的统计建模,并且我对Microsoft Excel如何处理线性回归感到好奇。运行回归分析时,excel是否将训练和测试数据分开?擅长分裂训练和测试数据吗?

此外,据我了解,分裂训练和测试数据用于防止过度拟合模型的数据。这是线性回归的风险吗?是否有必要在线性回归中进行列车测试分割?

感谢

+0

据我所知,没有必要为线性回归测试数据。只需测试异方差性,多重共线性(然后去除相关变量),并测试您的假设并改进模型。 不知道Excel如何执行它。 – AlexanderMP

回答

0

首先,我认为你应该使用交叉验证来检查不同模型的性能之前,你实际应用的任何机器学习算法。请查找材料here

我不知道如何Excel分裂数据集。因为你使用python,我强烈建议你可以使用sklearn和pandas(python模块)。这是如何工作的x_train, x_validation, y_train, y_validation = model_selection.train_test_split(x,y,test_size=self.validation_size,random_state=self.seed,stratify=y。更详细的信息可以参见here

是否需要在线性回归中执行列车测试拆分?是的。 如果您不分割数据集并训练所有数据以适应模型,那么会导致过度拟合,这意味着您的最终预测准确性将会很高。但它不可靠。该模型对训练数据非常准确,但对于未经训练或新数据可能会非常不准确。

我希望这会回答你的问题。

相关问题