我正在尝试构建分布式按需建模生产系统,并希望将数十万个小型模型保存在内存中(并将它们传输到数据库和进程之间)。我正在看statsmodels。可以修剪statsmodels结果序列化?
我最感兴趣的只是能够保存模型的系数并在模型上调用预测。
它看起来像statsmodels包含TONS附加信息(O(原始数据大小)),这是根本不需要用于此用例。序列化的大小是几兆字节,而系数的大小只有几个字节。这充满了我的数据库,并且杀死了分布式处理和缓存性能,只需很长的时间就可以序列化和反序列化。通过在内存中保留两个数量级以上的模型,删除非系数数据可能会导致两个数量级的加速。
在statsmodels,有一般的方式:
- 我可以请求非输出的系数数据不生成,或
- 从对象中删除,或
- 提取系数(这很容易)和使用它们来进行预测(这似乎不那么容易)的方法
我使用各种statsmodels模型,但主要是GLM和Logit。
我看起来并不重要。结果对象参考引用原始数据的模型对象。我无法让它适用于单个模型,但是(通过逐个删除字段)。但是,是否有适用于所有型号的通用型方法?
甜!非常感谢 – user48956
我在相关问题上增加了两个段落。还有一个技巧就是存储“params”,然后用新的或人造的数据创建一个假模型,这些数据只用于简单的预测。 'model.predict(params,exog,offset)'。但是,这并不是单元测试,也不是“正式”支持。 – user333700