2017-10-16 50 views
0

我有一个数据帧像这样:处理加入上或星火

+---+---+---+---+---+ 
|AId| A1| A2| A3| A4| 
+---+---+---+---+---+ 
| 1| *| a| b| c| 
| 2| *| *| b| c| 
| 3| c| a| b| c| 
| 4| *| *| *| c| 
| 5| *| *| *| *| 
+---+---+---+---+---+ 

,我想加入的:

+---+---+---+---+---+----+ 
|BId| B1| B2| B3| B4|Code| 
+---+---+---+---+---+----+ 
| 1| c| a| b| c| AO| 
| 2| b| a| b| c| AS| 
| 3| b| b| b| c| AT| 
| 4| a| d| d| c| BO| 
| 5| d| a| c| b| BS| 
| 6| a| b| b| c| BT| 
| 7| d| d| d| c| CO| 
| 8| d| d| d| d| CS| 
+---+---+---+---+---+----+ 

一个ID与规则匹配。但是,*是通配符。它会匹配任何东西。在上面的例子中,AId == 1将匹配BId 1和2,AId == 3只匹配BId 1,AId == 4匹配除5和8之外的所有匹配,并且AId == 5匹配全部8.

什么是最好的方法来解决这个问题?在Spark中查询看起来很昂贵,而且Spark没有内置OR。另一种方法似乎是做了一个例子 - 当A1-A4设置一个标志时,然后返回并加入。棘手的一点是,通配符可以在第一个表格的任何列中出现1-4次,尽管它们不出现在第二个表格中。

回答

0

可以表达的连接条件为:

(A1 = * | (A1 = B1)) AND (A2 = * | (A2 = B2)) AND ... AND (AN = * | (AN = BN)) 

随着PySpark等效表达可以例如产生这样

from pyspark.sql.functions import col 
from functools import reduce 
from operator import and_ 

expr = reduce(
    and_, 
    ((col("A{}".format(i)) == "*") | (col("A{}".format(i)) == col("B{}".format(i))) 
    for i in range(1, 5))) 
Column<b'(((((A1 = *) OR (A1 = B1)) AND ((A2 = *) OR (A2 = B2))) AND ((A3 = *) OR (A3 = B3))) AND ((A4 = *) OR (A4 = B4)))'> 

并用crossJoin使用:

a.crossJoin(b).where(expr) 

spark.conf.set("spark.sql.crossJoin.enabled", "true") 

a.join(b, expr) 

不幸的是,这相当昂贵,由于笛卡尔产品。对于少量列(4可能是一个边界案例),您可以尝试生成列的功率集并创建优化计划,但显然它不会扩展到更大数量的列。