2016-02-29 61 views
0

我想知道是否可以得到一些问题的帮助。嘈杂的数据集的多项式回归

我正在为我的一个前实验室创建一个工具,它使用来自基于物理机器(大量噪音)的数据,结果为简单的x,y坐标。我想确定数据集的局部最大值,但是,由于该组中存在一堆噪声,因此您不能只检查点之间的斜率以确定峰值。

为了解决这个问题,我考虑使用多项式回归来有点“平滑”数据集,然后从结果模型中确定局部最大值。

我已经通过这个链接 http://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html,但它只告诉你如何创建一个非常合适的模型。它没有告诉你是否有一个综合度量标准来衡量哪个是最好的模型。我应该通过Chi平方吗?或者还有其他一些更好的工具或集成到scikit-learn工具包中的指标?

感谢先进!

+0

我会建议这种问题的最大熵算法。 – Mehno

回答

0

Link procided esentially向您展示了如何在多项式特征之上构建一个Ridge回归。因此,这不是一个“紧密配合”,因为您可以通过正则化(alpha参数)控制它 - 优先于参数。现在,你认为什么是“最佳模式” - 作为最佳回归有无数种可能的标准,每种标准都通过不同的标准进行测试。你需要回答自己 - 你感兴趣的措施是什么。它是否应该是平滑与紧密适应之间的某种“黄金比例”?或者,你可能想要一个最多只有一些光滑度的模型,这可以最小化一些误差测量(距离点的平均距离?)?还有一种方法是测试它捕获底层流程的程度 - 通过某种典型的验证(如交叉验证等),您可以在数据的子集上重复构建模型并检查维护部分的错误。有许多可能(并且完全有效!)的方法 - 一切取决于你想要回答的确切问题。不幸的是,“什么是最好的模式”并不是一个好问题。