如何删除Pyspark中的缺失值

我正在使用此示例数据，其中包含不同列中的缺失值，我想删除包含缺失值的所有行。如何删除Pyspark中的缺失值

数据说明是：

我在网上搜查，好像dropna仅适用于数据帧。但是，当我创建了一个数据帧，我得到一个错误信息

auto_DF_prep = auto_RDD.map(lambda e: Row(mpg = float(e[0]), cylinders = int(e[1]), displacement = float(e[2]), horsepower = float(e[3]), weight = float(e[4]), acceleration = float(e[5]), year = int(e[6]), origin = int(e[7]), name = e[8]))

我想这是因为NA的，我不能创建一个数据帧。我应该如何继续？提前致谢！

来源

2017-03-08 vivi11130704

假设auto是DataFrame

auto.na.drop()

参考：在CSV文件中恰好等于str('NA')这不表示非数值DataFrame.dropna()

来源

2017-03-08 23:30:48

因此，这里是我做过什么'自动= sc.textFile（ “文件：///home/cloudera/Downloads/auto_mpg_original.csv”） auto_RDD =汽车。 flatMap（lambda x：x.split（“，”））'现在我创建一个RDD。然后我尝试使用原始文章'auto_DF_prep = ...'中的代码创建一个DF，但得到了该错误。我如何创建一个数据框？ – vivi11130704

这取决于你是否使用Spark 2.x –

NA。

空值使用的CSV空字符串

来源

2017-03-09 01:27:18

如何删除Pyspark中的缺失值

回答

相关问题