1
所有在LIBSVM格式作为输入到火花Mllib教程使用文件的示例。(http://spark.apache.org/docs/latest/mllib-ensembles.html)HDFS文件作为输入提供给火花Mllib
数据= MLUtils.loadLibSVMFile(SC,“数据/ mllib/sample_libsvm_data.txt ')
但我有一个文件,其中有数百万行位于HDFS上,并且希望将此作为Spark的MLLib输入使用PySpark,我不想将其转换为libsvm格式。
任何人都可以请指导我如何做到这一点?
该格式是什么样的? – evgenii