1
当org.apache.spark.sql.Dataset#persist()
被调用时,spark是否实际缓存了Dataset
?或者当某个终端操作(如count
)将在Dataset
上被调用时,它将被缓存。数据集#持久()终端操作?
当org.apache.spark.sql.Dataset#persist()
被调用时,spark是否实际缓存了Dataset
?或者当某个终端操作(如count
)将在Dataset
上被调用时,它将被缓存。数据集#持久()终端操作?
因为Spark Dataset.persist
中的所有缓存操作都是惰性的,并且只会标记给定的缓存对象,所以如果它被评估过。
与RDDs相比,主要区别在于评估难以推理。请参阅开发人员名单上的相关讨论:Will .count() always trigger an evaluation of each row?