2016-12-07 93 views
-1

我具有以下的输入数据:大规模数据Logistic回归

head(data1) 
       VarA VarB VarC   VarD VarE VarG VarH VarI 
2016-06-01 09:30:05 14.2 31228 ABCD IS Equity 1 139 192 23 
2016-06-01 09:30:07 14.2 31128 ABCD IS Equity 0  0  0 0 
2016-06-01 09:30:09 14.2 36128 ABCD IS Equity 1 138 192 23 
2016-06-01 09:30:19 14.2 36028 ABCD IS Equity 0  0  0 0 
2016-06-01 09:30:21 14.2 27028 ABCD IS Equity 1 112 190 23 
2016-06-01 09:30:37 14.2 26528 ABCD IS Equity 0  0  0 0 

VarAPOSIXct是类型,VarDchr类型的,并且是restsnum类型。

VarE是我的因变量。 VarC, VarB, VarG, VarH and VarI是我的解释变量。数据集的总行数为7.4 million。我想运行逻辑回归。我试过bigglmbiglm包使用binomial family。但它是failing to converge。由于我没有得到适当的偏差值。所以我有问题计算McFadden's R-Sqr值相同。你可以请建议任何替代包/方式?

在此先感谢。

+0

Downvote ??我可以知道为什么吗?如果可能的话,请给我解释一下,这样下次我可以小心了。 – Zico

回答

0

sgd软件包将允许您通过随机梯度下降方法逐个样本地处理数据。

+0

谢谢,我试过了。虽然它已经成功地融合在一起,但它提供的信息非常有限。你能从这个唯一的信息分享一些关于伪R-Sqr计算的信息吗?我只能看到这些信息:模型,系数,收敛,估计,位置,时间,model.out。 – Zico