regression

    -1热度

    1回答

    我和我的同班同学正在完成这项任务,涉及在Fama-French 3因子模型上运行回归。我使用python Statsmodels模块,他们使用Stata,我们共享相同的一组数据。对于普通最小二乘回归,我们得到了相同的答案。但由于某种原因,稳健的回归结果并不一致。 下面是塔塔结果: 这里是Statsmodels结果: 只是想知道这可能是这个问题的原因是什么?任何方式来解决它?我还在Statsmode

    2热度

    1回答

    我有一个包含1000个观察值和76个变量的数据集,其中约有20个是分类变量。我想在整个数据集上使用LASSO。我知道有因素变量在LASSO中通过lars或glmnet并不真正起作用,但变量太多,并且存在太多不同的,无序的值,他们可以对这些变量进行合理的数值重新编码。 在这种情况下可以使用LASSO吗?我该怎么做呢?创建预测的矩阵债收益率这样的响应: hdy<-as.numeric(housingD

    0热度

    1回答

    我有一个数据集,包括7个不同的协变量和输出变量,'成功率'。 我试图找到预测成功率的重要因素。我的数据集中的一个协变量是一个分类变量,它需要700个值(0-700),每个值表示它们来自的区域的ID。 在进行逻辑回归时,我应该如何处理这个变量? 如果我制作700个虚拟列,我怎样才能更容易地解释结果? 我正在使用Python和statsmodels。

    -1热度

    1回答

    假设我有一个分类变量,例如表格中的国家/地区列。 如何快速添加每个类别的虚拟变量 - WITH A NAME NAME? 所以,如果列是针对国家的,那么这个人是否居住在美国的变量将被称为美国而不是country16什么的。

    0热度

    1回答

    我正在分析一组数据,我需要找到它的回归。数据集中的数据点数量很少(〜15),因此我决定使用强大的线性回归作业。问题在于程序选择了一些看起来不具有影响力的异常点。这里是数据的散点图,其影响用作尺寸: 点B和C(图中用红色圆圈表示)被选作异常值,而点A具有较高的影响力则不是。虽然A点并没有改变回归的总体趋势,但它基本上定义了斜率与X最高的点一样。而B点和C点只影响斜率的显着性。所以我的问题有两个部分:

    1热度

    1回答

    我在R.初学者这是一个非常简单的代码,我正在努力挽救残差项: # Create variables for child's EA: dat$cldeacdi <- rowMeans(dat[,c('cdcresp', 'cdcinv')],na.rm=T) dat$cldeacu <- rowMeans(dat[,c('cucresp', 'cucinv')],na.rm=T) # Cr

    0热度

    1回答

    我正在研究预测角度的模型。什么是改变目标的好方法(目前它们取值0到360度),这样近似角度的处理方式相似吗?我怀疑现在离开它们并不是最佳的,因为接近360和0的值是相似的,但是具有完全不同的大小。

    0热度

    1回答

    我在存储OLS回归的回归常量时遇到问题。我想计算面板数据集中每个公司的每日回归; obs_id标识公司和日期。 我试图建立下面的循环。不知何故,整个样本的保存系数是相同的。 foreach x in obs_id { newey retRF MktRF SMB HML if obs_id == `x', lag(0) mat A = e(b) quietly repl

    -1热度

    1回答

    X和Y是不相关的(0.3);然而,当我把X在随机森林分类预测Y,旁边两(A,B)其他(相关)变量,X和两个其他变量(A,B)为Y.注意的显著预测的是,其他两个(A, B)变量也无法与Y. 相关怎样才能根据统计和机器学习的想法解释这一点。 代表一个或多个可变(A或B或Y)相对于另一变量(X),其中变量不具有很强的相关性。

    0热度

    1回答

    我试图在python中复制一个函数,并能够使用数据框中的多列对以下代码进行编码,但想知道是否有一个python回归函数可以更有效地执行此操作。这里是该功能描述的链接。对不起,先进的不是一个真正的统计人员。 :) http://tlc.thinkorswim.com/center/reference/thinkScript/Functions/Statistical/Inertia.html 它指出