我从Hbase加载数据并对该数据执行了一些操作并创建了配对的RDD。我想在下一个函数中使用这个RDD的数据。 RDD中有50万条记录。 能否请您建议性能有效的方式,通过配对的RDD中的密钥读取数据。Apache Spark RDD值查找
-1
A
回答
0
您可以使用
rddName.take(5)
其中5是要返回最顶端的元素个数。您可以相应地更改号码。 也读第一个元素,你可以使用
rddName.first
+0
我必须通过一个密钥,并获得价值。 –
+0
您可以使用mapValues() –
0
仅从驱动程序,您可以使用rdd.lookup(key)
返回与所提供的密钥相关联的所有值。
+0
感谢@Umberto。我从查阅影响性能的文档中读到。 RDD有大约50万条记录。有没有什么性能有效的做法? –
1
这是一个棘手的用例。你可以使用一些数据存储和索引它吗?
检查拼接机(开源)。
0
执行以下操作:
rdd2 = rdd1.sortByKey()
rdd2.lookup(key)
这将是快。
相关问题
- 1. 在Apache Spark中添加RDD值(总和)
- 2. 比较RDD对象-Apache Spark
- 3. Apache Spark Rdd持续存在
- 4. 在RDD中查找元素Spark
- 5. Apache Spark RDD和Java 8:异常处理
- 6. 在apache-spark RDD中处理多个'行'
- 7. Apache Spark RDD不同 - 奇怪的行为
- 8. Apache Spark:如何将Spark DataFrame转换为类型为RDD [(Type1,Type2,...)]的RDD?
- 9. Apache spark:我们如何将RDD [v]分成Map [k,RDD [v]]?
- 10. Apache Spark - 如何计算配对RDD中的相似键/值对
- 11. Apache Spark - 查找数组/列表/子集
- 12. Spark RDD apend
- 13. 在K-Means算法(Apache Spark)中查找K的完美值
- 14. spark创建RDD时找不到RDD类型
- 15. Apache Spark mapPartitionsWithIndex
- 16. spark - 如何在另一个RDD的转换内查找(Java)PairRDD的键和值
- 17. Spark在RDD中查找字段的重复记录
- 18. 使用Spark匹配Scala中的RDD值
- 19. Spark从键值RDD获取密钥
- 20. 减少Spark RDD返回多个值
- 21. Hbase Spark RDD JSON列
- 22. RDD到Dataframe Spark Couchbase
- 23. Spark scala RDD遍历
- 24. Spark:通过Stratio和RDD查询Mongodb
- 25. Spark Streaming清理RDD检查点目录
- 26. Apache Spark找不到类
- 27. apache spark中的sortbykey
- 28. 是否有可能将apache点燃rdd转换为scala中的spark rdd
- 29. 其他RDD中的Java Spark RDD?
- 30. 使用Apache Spark/Spark SQL加入文件
[我如何问一个好问题?](https://stackoverflow.com/help/how-to-ask) – zero323