Q

HDFS文件作为输入提供给火花Mllib

2015-10-13 68 views 1 likes

1

所有在LIBSVM格式作为输入到火花Mllib教程使用文件的示例。（http://spark.apache.org/docs/latest/mllib-ensembles.html）HDFS文件作为输入提供给火花Mllib

数据= MLUtils.loadLibSVMFile（SC，“数据/ mllib/sample_libsvm_data.txt '）

但我有一个文件，其中有数百万行位于HDFS上，并且希望将此作为Spark的MLLib输入使用PySpark，我不想将其转换为libsvm格式。

任何人都可以请指导我如何做到这一点？

2015-10-13 Gayatri

+0

该格式是什么样的？ – evgenii

A

回答

1

通常当您在MLLib中输入一个算法时，您会创建一个特定数据类型（例如LabeledPoint或一个向量）的rdd。MLUtils.loadLibSVMFile会将您的数据转换为标记点RDD。

您可以直接将数据转换为算法所需的任何格式，然后将结果RDD作为MLLib算法的输入。

http://spark.apache.org/docs/latest/mllib-data-types.html

2015-10-14 04:59:40 Rishi

相关问题