2017-03-08 162 views
0

我正在使用此示例数据,其中包含不同列中的缺失值,我想删除包含缺失值的所有行。如何删除Pyspark中的缺失值

enter image description here

数据说明是:

enter image description here

我在网上搜查,好像dropna仅适用于数据帧。但是,当我创建了一个数据帧,我得到一个错误信息 enter image description here

auto_DF_prep = auto_RDD.map(lambda e: Row(mpg = float(e[0]), cylinders = int(e[1]), displacement = float(e[2]), horsepower = float(e[3]), weight = float(e[4]), acceleration = float(e[5]), year = int(e[6]), origin = int(e[7]), name = e[8])) 

我想这是因为NA的,我不能创建一个数据帧。我应该如何继续?提前致谢!

回答

0

假设autoDataFrame

auto.na.drop()

参考:在CSV文件中恰好等于str('NA')这不表示非数值DataFrame.dropna()

+0

因此,这里是我做过什么'自动= sc.textFile( “文件:///home/cloudera/Downloads/auto_mpg_original.csv”) auto_RDD =汽车。 flatMap(lambda x:x.split(“,”))'现在我创建一个RDD。然后我尝试使用原始文章'auto_DF_prep = ...'中的代码创建一个DF,但得到了该错误。我如何创建一个数据框? – vivi11130704

+0

这取决于你是否使用Spark 2.x –

0

NA

空值使用的CSV空字符串