Python Scikit随机森林回归错误

我想从csv加载训练和测试数据，在scikit/sklearn中运行随机森林回归器，然后预测测试文件的输出。Python Scikit随机森林回归错误

TrainLoanData.csv文件包含5列;第一列是输出，接下来的4列是特征。 TestLoanData.csv包含4列 - 特征。

当我运行代码，我得到错误：

predicted_probs = ["%f" % x[1] for x in predicted_probs] 
IndexError: invalid index to scalar variable.

这是什么意思？

这里是我的代码：

import numpy, scipy, sklearn, csv_io //csv_io from https://raw.github.com/benhamner/BioResponse/master/Benchmarks/csv_io.py 
from sklearn import datasets 
from sklearn.ensemble import RandomForestRegressor 

def main(): 
    #read in the training file 
    train = csv_io.read_data("TrainLoanData.csv") 
    #set the training responses 
    target = [x[0] for x in train] 
    #set the training features 
    train = [x[1:] for x in train] 
    #read in the test file 
    realtest = csv_io.read_data("TestLoanData.csv") 

    # random forest code 
    rf = RandomForestRegressor(n_estimators=10, min_samples_split=2, n_jobs=-1) 
    # fit the training data 
    print('fitting the model') 
    rf.fit(train, target) 
    # run model against test data 
    predicted_probs = rf.predict(realtest) 
    print predicted_probs 
    predicted_probs = ["%f" % x[1] for x in predicted_probs] 
    csv_io.write_delimited_file("random_forest_solution.csv", predicted_probs) 

main()

来源

2013-01-09 user1137778

从RandomForestRegressor的返回值是float数组：

In [3]: rf = RandomForestRegressor(n_estimators=10, min_samples_split=2, n_jobs=-1) 

In [4]: rf.fit([[1,2,3],[4,5,6]],[-1,1]) 
Out[4]: 
RandomForestRegressor(bootstrap=True, compute_importances=False, 
      criterion='mse', max_depth=None, max_features='auto', 
      min_density=0.1, min_samples_leaf=1, min_samples_split=2, 
      n_estimators=10, n_jobs=-1, oob_score=False, 
      random_state=<mtrand.RandomState object at 0x7fd894d59528>, 
      verbose=0) 

In [5]: rf.predict([1,2,3]) 
Out[5]: array([-0.6]) 

In [6]: rf.predict([[1,2,3],[4,5,6]]) 
Out[6]: array([-0.6, 0.4])

所以你想指数浮动像(-0.6)[1]，这是不可能的。

作为一个方面说明，该模型不返回概率。

来源

2013-01-09 09:35:39

首先，它总是有帮助的也有样本数据来再现和调试问题。如果它们太大或太密，可以提取它们中有趣的部分。

变量predicted_probs的内容似乎不像您期望的那样。它似乎是一个整数列表（或数组），这也是我所期望的。

在sklearn中，X.train()方法总是接受训练数据及其相关类（通常是整数或字符串）。然后X.predict()方法仅采用验证数据并且返回预测结果，即，对于验证数据中的每个集合一个类别（再次为整数或字符串）。

如果你想知道训练好的分类器的精度有多好，你不能仅仅训练和预测，但是你必须做一个交叉验证，即重复训练和验证，并且每次检查有多少预测是正确的。 sklean有一个很好的文档，我相信你会找到相应的部分。如果没有，问我。

来源

2013-01-09 09:31:18

其实，'predict'的结果是一个浮点数组。 RandomForestRegressor是一个回归模型，而不是分类器。 –

当然，你是对的。 –

尝试使用numpy的“genfromtxt”而不是“csv_io.read_data”进行数据集加载 - 它会自动将csv中的数据转换为numpy数组。并阅读Getting Started With Python For Data Science文章将有助于你...

来源

2013-01-24 17:04:36 Emkan

Python Scikit随机森林回归错误

回答

相关问题