我'使用pyspark每行的空值的数量过滤数据帧我有这样的一个表:Pyspark:基于
id | ClientNum | Value | Date | Age | Country | Job
1 | 19 | A | 1483695000 | 21 | null | null
2 | 19 | A | 1483696500 | 21 | France | null
3 | 19 | A | 1483697800 | 21 | France | Engineer
4 | 19 | B | 1483699000 | 21 | null | null
5 | 19 | B | 1483699500 | 21 | France | null
6 | 19 | B | 1483699800 | 21 | France | Engineer
7 | 24 | C | 1483699200 | null | null | null
8 | 24 | D | 1483699560 | 28 | Spain | null
9 | 24 | D | 1483699840 | 28 | Spain | Student
基于列价值,我想保持每个ClientNum不同值指定了大多数信息(年龄,国家,工作)。
的结果应该是这样的:
ClientNum | Value | Date | Age | Country | Job
19 | A | 1483697800 | 21 | France | Engineer
19 | B | 1483699800 | 21 | France | Engineer
24 | C | 1483699200 | null | null | null
24 | D | 1483699840 | 28 | Spain | Student
谢谢!
[试试这个答案】(http://stackoverflow.com/questions/38649793/how-to-get-distinct-rows-in-dataframe-using -pyspark)和[也看到这个](http://stackoverflow.com/questions/39287729/filter-rows-by-distinct-values-in-one-column-in-pyspark) – ARr0w
我不能做到这一点与df.distinct()或df.drop_duplicates(),所有行是不同的在我的例子。我只想保留不同的值。 – Omar14
这就是这些答案的内容。让你知道你想要保持的独特价值。 – ARr0w