在Apache Spark中查找列中的唯一元素

Id |兴趣
1 |骑马，阅读，烹饪
2 |骑行，跑步
3 |旅游，烹饪

是否有可能获取利益的总结一样

骑，2
阅读，1个
烹饪，2
运行，1
旅游，1

2016-10-02 Newb101

请尝试下面。

val firstRDD = sc.textFile("/path_to_file/file.txt").map(line =>line.split("\\|")(1)) 

val resultRDD=firstRDD.flatMap(line => line.split(",")).map(word => (word,1)).reduceByKey(_+_) 

resultRDD.collect

这里是从阶输出壳

res23: Array[(String, Int)] = Array((reading,1), (cooking,2), (travelling,1), (running,1), (riding,2))

来源

2016-10-03 01:09:10

在Apache Spark中查找列中的唯一元素

回答

相关问题