1
我使用scikit-learn随机森林来适应训练数据(〜30mb),我的笔记本电脑不断崩溃运行出应用程序内存。测试数据比训练数据大几倍。使用Macbook Air 2GHz 8GB内存。随机森林:内存不足
有什么办法解决这个问题?
rf = RandomForestClassifier(n_estimators = 100, n_jobs=4)
print "20 Fold CV Score: ", np.mean(cross_validation.cross_val_score(rf, X_train_a, y_train, cv=20, scoring='roc_auc'))
您正在使用哪个版本的scikit-learn?版本0.15在林中的内存消耗方面有一些重大改进。 –
'0.15.2'。我尝试切换到按顺序构建的GBRT,不知何故,它也耗尽了内存。这是否意味着我真的需要尝试在EC2群集上运行或进行随机抽样? – ananuc
@AndreasMueller:感谢您对Advanced Sklearn的有益探讨。也许我可以从那里尝试一些想法。我没有机会通过ogrisel的EC2平行ML教程。我想知道我们需要考虑旋转EC2集群的哪一点? – ananuc