我有一个数据框,如下所示。它包含hdfs文件路径。我想读取这些值,然后阅读文件的内容。没有任何利用并行处理的嵌套RDD,解决这个问题的最好方法是什么?我使用Scala的2.11和2.1星火读取数据框中可用的文件路径并使用spark读取这些文件的内容
+--------------------+
| value|
+--------------------+
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
+--------------------+
编辑基于Ankush答案: 的文件是巨大的,无法使用wholeTextFiles
阅读谢谢
将它收集到一个字符串数组中,然后用'sc.textFile'映射它。你应该有一系列的RDD – philantrovert