如何让PySpark

一个数据帧的最频繁的价值观我很熟悉，我使用的功能“模式”和“GROUPBY”来获得最频繁的值，比如熊猫数据帧以下如何让PySpark

df3=df5.groupby(['band']).apply(lambda x: x.mode())

但是我我在PySpark遇到一些困难。

我有一个火花的数据帧如下：

band  A3 A5 status 
4G_band1800 12 18 TRUE 
4G_band1800 12 18 FALSE 
4G_band1800 10 18 TRUE 
4G_band1800 12 12 TRUE 
4g_band2300 6 24 FALSE 
4g_band2300 6 22 FALSE 
4g_band2300 6 24 FALSE 
4g_band2300 3 24 TRUE

Screenshot of above

我要的是如下：

band  A3 A5 status 
4G_band1800 12 18 TRUE 
4g_band2300 6 24 FALSE

Screenshot of above

我已经尝试了所有可能的组合但没有得到任何合理的产出。请建议一种方式。

来源

2017-08-25 Python Spark

可你，其他人可以理解的格式共享您的输入数据？ – mtoto

嗨，我更新了使用图像的问题..图像一个是输入的数据帧和图像2我想输出 –

没有图像请 – mtoto

没有定义自己的UDAF，你可以定义一个模式函数（UDF）和如下与collect_list使用它：

import pyspark.sql.functions as F 
@F.udf 
def mode(x): 
    from collections import Counter 
    return Counter(x).most_common(1)[0][0] 

cols = ['A3', 'A5', 'status'] 
agg_expr = [mode(F.collect_list(col)).alias(col) for col in cols] 
df.groupBy('band').agg(*agg_expr).show() 

+-----------+---+---+------+ 
|  band| A3| A5|status| 
+-----------+---+---+------+ 
|4G_band1800| 12| 18| true| 
|4g_band2300| 6| 24| false| 
+-----------+---+---+------+

来源

2017-08-25 12:39:38 Psidom

如何让PySpark

回答

相关问题