0
我是一个新手,函数式编程语言,我努力学习火花斯卡拉 的目标是按主题划分的RDF datset 的代码如下:按主题火花阶Partitionning的RDF数据集
object SimpleApp {
def main(args: Array[String]): Unit = {
val sparkConf =
new SparkConf().
setAppName("SimpleApp").
setMaster("local[2]").
set("spark.executor.memory", "1g")
val sc = new SparkContext(sparkConf)
val data = sc.textFile("/home/hduser/Bureau/11.txt")
val subject = data.map(_.split("\\s+")(0)).distinct.collect
}
}
所以我得到恢复主题,但它返回一个字符串数组也mapPartitions(func)和mapPartitionsWithIndex(func):func需要迭代器 那么我该如何继续?
你能添加您的输入文件的样本和它生成的输出? – jsdeveloper
我的输入文件是Ntriples格式的rdf数据集:对于每行我们都有主题,对象和谓词以及它生成的输出:HashPartitioner无法对数组键进行分区。 – Marry
如果解决了您的问题,请将答案标记为正确 – jsdeveloper