我有一个需要三个输入并执行两个外部连接的spark任务。数据采用键值格式(String,Array [String])。代码的最重要的部分是: val partitioner = new HashPartitioner(8000)
val joined = inputRdd1.fullOuterJoin(inputRdd2.fullOuterJoin(inputRdd3, partitioner
我想在amazon EMR实例上运行pyspark以从dynamodb读取数据,并想知道如何在代码中设置拆分和工人数量? 我遵循以下两个文档中的说明来提供当前连接到dynamoDB并读取数据的代码。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext