0
A
回答
1
如果我假设你的初始输入是在一个文本文件中,那么你可以调用两个这样的地图函数:
data = sc.textFile("textfile_location")
data = data.map(lambda line: (line.split(":")[0], line.split(":")[1].split()))
data = data.flatMap(lambda key, values: [(key, value) for value in values])
1
我对RDD的工作原理并不十分清楚,但你说它可以变成dict
。所以我们可以说,你有以下字典:
d = {1: [6, 7], 2: [5]}
而且假设你想写一个信息到一个文件:
1 6
1 7
2 5
这是可以实现如下:
with open('path/to/output', 'w') as outfile:
for k in sorted(d):
for v in d[k]:
outfile.write("{}\t{}\n".format(k, v))
+0
可以使用lambda表达式来完成 – mhn
+0
@mhn:使用lambda表达式可以做什么?我想要用lambda替换哪部分代码? – inspectorG4dget
相关问题
- 1. Spark,Scala - 从rdd映射输出
- 2. 如何获得AutoMapper映射?
- 3. 如何在一个映射器中获得多个输出(k,v)?
- 4. 如何获得TreeSet的逆映射
- 5. 从映射器输出获得前N项 - MapReduce的
- 6. 如何获得grep的每条输出行的长度
- 7. 我如何获得多映射在Dapper中工作?
- 8. 'SUM()' 中的输出映射
- 9. 如何获得输出?
- 10. 如何获得输出proc_open()
- 11. 如何获得单独的RDD为每个键进入
- 12. scala.MatchError上数据帧映射到RDD
- 13. 映射到Spark中的RDD的方法
- 14. Cogroup 5 RDD(获得Tuple5或更多)
- 15. Spark - 如何使用有状态映射器对排序的RDD进行平面映射?
- 16. '输入/输出'端口如何映射到内存中?
- 17. 如何将rdd的列表转换为python映射?
- 18. 如何在Spark中的RDD之间共享全局映射值?
- 19. 如何过滤依赖哈希映射的RDD?
- 20. 如何在两个单独的RDD之间映射键/值对?
- 21. 如何获得如下输出?
- 22. Spark:将HBase行密钥的RDD映射到值为
- 23. 如何将一列RDD与(a)相同(b)不同RDD的其他列进行映射?
- 24. 如何使用C#代码映射映射一对多关系?
- 25. 如何获得每小时一行?
- 26. 将Jsonpath输出映射到POJO列表
- 27. logstash输出elasticsearch指数和映射
- 28. Hadoop的,如何压缩映射器输出,但不减速机输出
- 29. 如何获得确切的输出?
- 30. 如何用println获得输出()
这仍然不能告诉我们输入是什么样的数据结构,以及你如何处理它。例如,它是一个字典(什么是键和值)?或者它是一个文本文件?或者它是一个字符串?或... – inspectorG4dget
它实际上是一个RDD。但是字典的逻辑也可以适用于RDD – mhn
[flatMap引发错误-unicode项可能有重复项没有属性flatMap](http://stackoverflow.com/questions/33540559/flatmap-throws-error-unicode -item-does-not-have-attribute-flatmap) – zero323