我正在分析一组数据,我需要找到它的回归。数据集中的数据点数量很少(〜15),因此我决定使用强大的线性回归作业。问题在于程序选择了一些看起来不具有影响力的异常点。这里是数据的散点图,其影响用作尺寸:Python statsmodel鲁棒线性回归(RLM)异常值选择
点B和C(图中用红色圆圈表示)被选作异常值,而点A具有较高的影响力则不是。虽然A点并没有改变回归的总体趋势,但它基本上定义了斜率与X最高的点一样。而B点和C点只影响斜率的显着性。所以我的问题有两个部分: 1)如果没有选择最具影响力的点,并且您是否知道其他具有我选择的异常值选项的包,则RLM包的选择异常值的方法是什么? 2)你认为A点是异常点吗?