我有一个数据框(或可以是任何RDD)包含一个众所周知的模式类似这样的几百万行:在pyspark中积累数据框的最有效方法是什么?
Key | FeatureA | FeatureB
--------------------------
U1 | 0 | 1
U2 | 1 | 1
我需要从一个包含相同的不同功能的磁盘加载其他十几集密钥数量。一些数据集的宽度可达十几列。试想一下:
Key | FeatureC | FeatureD | FeatureE
-------------------------------------
U1 | 0 | 0 | 1
Key | FeatureF
--------------
U2 | 1
感觉就像一个折叠或聚集在这里我只想遍历所有的数据集,并取回这样的事情:
Key | FeatureA | FeatureB | FeatureC | FeatureD | FeatureE | FeatureF
---------------------------------------------------------------------
U1 | 0 | 1 | 0 | 0 | 1 | 0
U2 | 1 | 1 | 0 | 0 | 0 | 1
我试着加载每个数据帧,然后加入,但一旦我过去了一些数据集,这将永远消失。我错过了完成这项任务的常见模式或有效途径吗?
由于一些背景资料,我试着用钥匙希望利用一些分割的订购dataframes,但还没有看到在执行时间的大变化。 –
我也使用了像字符串一样的数据处理方式,并通过键值和连接值来实现,这些值实际上工作得很好。 –
@ zero323 AFAIK有没有办法从据称是在逻辑计划中使用(我也尝试)的排序依据明确地划分一个数据帧,备用。如果我将它转换为RDD,那么我可能会聚合Bkey? –