6
我使用的Spark 1.3PySpark和广播加入例如
# Read from text file, parse it and then do some basic filtering to get data1
data1.registerTempTable('data1')
# Read from text file, parse it and then do some basic filtering to get data1
data2.registerTempTable('data2')
# Perform join
data_joined = data1.join(data2, data1.id == data2.id);
我的数据是相当扭曲和数据2(几KB)< < DATA1(GB的10秒),表现相当不错。我正在阅读有关广播连接,但不知道如何使用Python API执行相同操作。
'pyspark.sql.functions.broadcast'最早出现在1.6,根据到[文档](https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html#module-pyspark.sql.functions) –
@NicholasWhite在PySpark包装已添加1.6但是Scala方法从1.5开始可用,所以你可以使它在1.5中工作。 – zero323