我正在阅读的火花教科书,我看到的转换和行动,再次我读rdd函数,所以我很迷惑,任何人都可以解释什么是转换和火花rdd函数之间的基本区别。spark中的转换和rdd函数有什么区别?
两者都用于更改rdd数据内容并返回一个新的rdd,但我想知道准确的解释。
我正在阅读的火花教科书,我看到的转换和行动,再次我读rdd函数,所以我很迷惑,任何人都可以解释什么是转换和火花rdd函数之间的基本区别。spark中的转换和rdd函数有什么区别?
两者都用于更改rdd数据内容并返回一个新的rdd,但我想知道准确的解释。
RDDS只支持两种类型的操作:转变,从现有的创建一个新的数据集和行动,对数据集运行计算后的值返回驱动程序。
RDD Functions
是用于内部机制的教科书中的通用术语。
例如,MAP是一种通过每个数据集元素传递一个函数并返回一个代表结果的新RDD的转换。 REDUCE是一种动作,它使用某个函数来聚合RDD的所有元素,并将最终结果返回给驱动程序。