2015-10-13 68 views
1

所有在LIBSVM格式作为输入到火花Mllib教程使用文件的示例。(http://spark.apache.org/docs/latest/mllib-ensembles.htmlHDFS文件作为输入提供给火花Mllib

数据= MLUtils.loadLibSVMFile(SC,“数据/ mllib/sample_libsvm_data.txt ')

但我有一个文件,其中有数百万行位于HDFS上,并且希望将此作为Spark的MLLib输入使用PySpark,我不想将其转换为libsvm格式。

任何人都可以请指导我如何做到这一点?

+0

该格式是什么样的? – evgenii

回答

1

通常当您在MLLib中输入一个算法时,您会创建一个特定数据类型(例如LabeledPoint或一个向量)的rdd。MLUtils.loadLibSVMFile会将您的数据转换为标记点RDD。

您可以直接将数据转换为算法所需的任何格式,然后将结果RDD作为MLLib算法的输入。

http://spark.apache.org/docs/latest/mllib-data-types.html