数据集＃持久（）终端操作？

当org.apache.spark.sql.Dataset#persist()被调用时，spark是否实际缓存了Dataset？或者当某个终端操作（如count）将在Dataset上被调用时，它将被缓存。数据集＃持久（）终端操作？

因为Spark Dataset.persist中的所有缓存操作都是惰性的，并且只会标记给定的缓存对象，所以如果它被评估过。

与RDDs相比，主要区别在于评估难以推理。请参阅开发人员名单上的相关讨论：Will .count() always trigger an evaluation of each row?

2017-03-01 15:01:02 user6910411

回答