statsmodels

    1热度

    1回答

    我正在尝试构建分布式按需建模生产系统,并希望将数十万个小型模型保存在内存中(并将它们传输到数据库和进程之间)。我正在看statsmodels。 我最感兴趣的只是能够保存模型的系数并在模型上调用预测。 它看起来像statsmodels包含TONS附加信息(O(原始数据大小)),这是根本不需要用于此用例。序列化的大小是几兆字节,而系数的大小只有几个字节。这充满了我的数据库,并且杀死了分布式处理和缓存性

    0热度

    1回答

    我有一个数据集,包括7个不同的协变量和输出变量,'成功率'。 我试图找到预测成功率的重要因素。我的数据集中的一个协变量是一个分类变量,它需要700个值(0-700),每个值表示它们来自的区域的ID。 在进行逻辑回归时,我应该如何处理这个变量? 如果我制作700个虚拟列,我怎样才能更容易地解释结果? 我正在使用Python和statsmodels。

    1热度

    1回答

    我想在Python中使用Statsmodels做一些多元线性回归,但是我一直在尝试组织我的数据时有一些心理障碍。 所以默认波士顿数据集是这样的: 而且线性回归模型的输出是这样的: 我的原始数据是空间分隔像这样: 而且我已经能够将其安排到阵列中的位置: 有谁有更多的Python的经验知道我可以以类似的方式格式化我的数据在波士顿的数据集,使我可以轻松实现我的回归模型?例如,设置对应于我的数据索引的fe

    0热度

    1回答

    我正在分析一组数据,我需要找到它的回归。数据集中的数据点数量很少(〜15),因此我决定使用强大的线性回归作业。问题在于程序选择了一些看起来不具有影响力的异常点。这里是数据的散点图,其影响用作尺寸: 点B和C(图中用红色圆圈表示)被选作异常值,而点A具有较高的影响力则不是。虽然A点并没有改变回归的总体趋势,但它基本上定义了斜率与X最高的点一样。而B点和C点只影响斜率的显着性。所以我的问题有两个部分:

    0热度

    1回答

    我正在做一个多元线性回归,并试图选择一些自变量的最佳子集。我想尝试在“for”循环中执行所有1024个可能的组合,并根据条件编号和r平方保存最佳结果。我知道这两种计算,给出类似的结果: model = sm.OLS(salarray, narraycareer) results = model.fit() print results.summary() OLS Regr

    1热度

    1回答

    我试图做从以下大熊猫据帧 CpcGDP.tail() 65 2012-01-01 2593.23 2013-01-01 2591.06 2014-01-01 2608.38 2015-01-01 2665.35 2016-01-01 2724.4 提取的一系列ARIMA模型分析我第一次转换对象 CpcGDP.convert_objects(convert_numer

    1热度

    1回答

    我使用statsmodels来进行OLS估计。结果可以在控制台上使用print(results.summary())进行研究。我想存储与.png文件相同的表格。下面是一个带有可重复示例的片段。 import pandas as pd import numpy as np import matplotlib.dates as mdates import statsmodels.api as s

    1热度

    1回答

    我想使用 model_S = statespace.sarimax.SARIMAX(df['lnpd'], trend='n', order=(12,1,12), seasonal_order=(1,1,1,12)) 显示错误: AttributeError: 'module' object has no attribute 'sarimax' 我刚刚更新statsmodels至0.8.0,并

    0热度

    1回答

    软件包pymc3和statsmodels可以在Python处理负二项式GLMS如图here: E(Y)= E ^(beta_0 +西格玛(X_I * beta_i)) 在哪里X_i s是我的预测变量,Y是我的因变量。有没有办法强制我的变量(例如X_1)具有beta_1=1,以便算法优化其他系数。我愿意同时使用pymc3和statsmodels。谢谢。

    -1热度

    1回答

    我和我的同班同学正在完成这项任务,涉及在Fama-French 3因子模型上运行回归。我使用python Statsmodels模块,他们使用Stata,我们共享相同的一组数据。对于普通最小二乘回归,我们得到了相同的答案。但由于某种原因,稳健的回归结果并不一致。 下面是塔塔结果: 这里是Statsmodels结果: 只是想知道这可能是这个问题的原因是什么?任何方式来解决它?我还在Statsmode