2016-08-13 70 views
0

我有一个20,000,000行的数据集。每行有30列。基于一列的唯一值分离树回归模型

其中一列包含7000个唯一的产品编号。

每一行都包含一个单位成本值,我希望使用除单位成本以外的所有列来预测。

我想建立一个独特的决策树或决策树的独特分支来模拟每个产品号码的数据。

基本上为每个产品编号划分行并为每个产品编号隔离建模。

我想在Azure中培训单个模型,以便尽可能做到这一点。

回答

0

你将不得不使用使用lapply创建多个模型

创建R组件与火车脚本

训练脚本类似于下面的内容:

model <- 
    lapply(seq(max(dataset$ProductNumber)), 
       function(j) 
        if(nrow(dataset[dataset$ProductNumber==j,])>0) 
        { 
         multinom(UnitCost~.,data=dataset[dataset$ProductNumber==j,]) 
        } 


     ) 

然后你可以使用预测性脚本类似下面

probabilities <- predict(model[[dataset$ProductNumber]], dataset, type="probs") 
scores<-data.frame(probabilities)