2016-05-01 53 views
0

我使用Python将CSV转换为LIBSVM数据格式。 LIBSVM的格式如下所示。第一列是目标。带LIBSVM数据错误的Spark决策树

0 0:1 1:2 2:1 4:11 6:4 7:7 8:1 9:99 10:70 11:1 
    0 0:1 1:2 2:1 4:8 5:1 6:3 7:7 8:1 9:99 10:62 11:1 

我在MLLib决策树代码在Spark是

from pyspark.mllib.tree import DecisionTree, DecisionTreeModel 
    from pyspark.mllib.util import MLUtils 
    from pyspark import SparkContext 
    sc = SparkContext() 

    data = MLUtils.loadLibSVMFile(sc,"/folder/libdata.txt") 
    (trainingData, testData) = data.randomSplit([0.7, 0.3]) 

    model = DecisionTree.trainClassifier(trainingData) 
    print(model.toDebugString()) 

    model.save(sc, "/folder/myDecisionTreeClassificationModel") 

我得到的错误是

java.lang.IllegalArgumentException: requirement failed: You provided 12 indices and values, which exceeds the specified vector size 11 

不知道它是怎么了。数据的格式也是正确的。

谢谢!

回答

1

这里可能发生的情况是,在确定数据集中的特征数量时,基于零的特征索引会将MLLib关闭。尝试将输入数据中的所有特征索引加1,从1开始到12结束(例如,第一行示例为0 1:1 2:2 3:1 5:11 7:4 8:7 9:1 10:99 11:70 12:1)。

如果您收集和打印data,您可以看到索引0(libsvm)如何成为索引-1(在Spark中)以及最大索引如何为10(对应于libsvm文件中的11)。计算特征数量的代码(请参阅https://github.com/apache/spark/blob/aedbbaa3dda9cbc154cd52c07f6d296b972b0eb2/python/pyspark/mllib/util.py#L120)采用最高索引并加1,即11,但您有12个特征。

或者,您可以尝试将正确数量的功能传递给loadLibSVMFile调用(通过numFeatures),但-1指数可能仍然会导致异常情况。