火花Dataframe/RDD等同于描述中给出的pandas命令？

如何通过Pyspark数据框或RDD执行与此pandas命令相同的功能？火花Dataframe/RDD等同于描述中给出的pandas命令？

df.drop(df.std()[(df.std() == 0)].index, axis=1)

更多关于此命令时，请详细说明： How to drop columns which have same values in all rows via pandas or spark dataframe?

注意：文件太大，无法使用df.toPandas（）。

来源

2016-09-23 CYAN CEVI

一般来说，你可以使用countDistinct：

from pyspark.sql.functions import countDistinct 

cnts = (df 
    .select([countDistinct(c).alias(c) for c in df.columns]) 
    .first() 
    .asDict()) 

df.select(*[k for (k, v) in cnts.items() if v > 1]) 

## +---+-----+-----+-----+ 
## | id|index| name|data1| 
## +---+-----+-----+-----+ 
## |345| 0|name1| 3| 
## | 12| 1|name2| 2| 
## | 2| 5|name6| 7| 
## +---+-----+-----+-----+

这不会与基数数据的工作，但可以处理非数字列。

您可以使用同样的方法与标准差进行过滤：

from pyspark.sql.functions import stddev 

stddevs = df.select(*[stddev(c).alias(c) for c in df.columns]).first().asDict() 

df.select(*[k for (k, v) in stddevs.items() if v is None or v != 0.0]) 

## +---+-----+-----+-----+ 
## | id|index| name|data1| 
## +---+-----+-----+-----+ 
## |345| 0|name1| 3| 
## | 12| 1|name2| 2| 
## | 2| 5|name6| 7| 
## +---+-----+-----+-----+

来源

2016-09-23 15:19:45 zero323

感谢@ zero323 –

火花Dataframe/RDD等同于描述中给出的pandas命令？

回答

相关问题