0
一个数据帧的最频繁的价值观我很熟悉,我使用的功能“模式”和“GROUPBY”来获得最频繁的值,比如熊猫数据帧以下如何让PySpark
df3=df5.groupby(['band']).apply(lambda x: x.mode())
但是我我在PySpark遇到一些困难。
我有一个火花的数据帧如下:
band A3 A5 status
4G_band1800 12 18 TRUE
4G_band1800 12 18 FALSE
4G_band1800 10 18 TRUE
4G_band1800 12 12 TRUE
4g_band2300 6 24 FALSE
4g_band2300 6 22 FALSE
4g_band2300 6 24 FALSE
4g_band2300 3 24 TRUE
我要的是如下:
band A3 A5 status
4G_band1800 12 18 TRUE
4g_band2300 6 24 FALSE
我已经尝试了所有可能的组合但没有得到任何合理的产出。 请建议一种方式。
可你,其他人可以理解的格式共享您的输入数据? – mtoto
嗨,我更新了使用图像的问题..图像一个是输入的数据帧和图像2我想输出 –
没有图像请 – mtoto