0
我有一个数据集如下在Apache Spark中查找列中的唯一元素
Id |兴趣
1 |骑马,阅读,烹饪
2 |骑行,跑步
3 |旅游,烹饪
是否有可能获取利益的总结一样
骑,2
阅读,1个
烹饪,2
运行,1
旅游,1
我有一个数据集如下在Apache Spark中查找列中的唯一元素
Id |兴趣
1 |骑马,阅读,烹饪
2 |骑行,跑步
3 |旅游,烹饪
是否有可能获取利益的总结一样
骑,2
阅读,1个
烹饪,2
运行,1
旅游,1
请尝试下面。
val firstRDD = sc.textFile("/path_to_file/file.txt").map(line =>line.split("\\|")(1))
val resultRDD=firstRDD.flatMap(line => line.split(",")).map(word => (word,1)).reduceByKey(_+_)
resultRDD.collect
这里是从阶输出壳
res23: Array[(String, Int)] = Array((reading,1), (cooking,2), (travelling,1), (running,1), (riding,2))