1
在Spark Dataframe中,我正在寻找下面引擎优化的解释。Dataframe将直接从Executor连接到RDBMS,否则它将通过驱动程序?
- 数据帧是特殊类型的RDD,它内部包含行RDD。这些RowRDD分布在执行者身上。
- 当我们编写从执行者(尤其是在纱线客户机模式运行),该行RDDS从执行者转移到驱动程序和驱动写入到Oracle使用JDBC连接。(这是真的吗?)
- 当这些RowRDDs在YARN-CLUSTER模式下运行相同的代码,Row RDD直接从Executor写入Oracle。这可能是一种更快的方法,但可用的JDBC连接可能会限制/减慢进程速度。
我不确定这是什么发生在引擎盖下亲切验证这一点,纠正我,如果我错了。这将影响一个很大的性能因素。
在此先感谢。