Q

如何根据Spark SQL中的单个列删除重复的行使用JAVA

2017-07-24 116 views 1 likes

1

我需要了解如何根据Spark中使用Java的单个数据框从数据框中删除重复的行。如何根据Spark SQL中的单个列删除重复的行使用JAVA

与正常的SQL一样，ROW_NUMBER（）OVER（PARTITION BY col ORDER BY COL DESC）。如何将此步骤转换为Java中的Spark SQL？

2017-07-24 Umar

A

回答

0

您可以使用dataframe.dropDuplicates（“col1”）从数据框中删除重复项。它将删除在col1中重复的所有行。该API可从病房的Spark 2.x获得。

2017-07-24 18:06:43

0

您正在正确查看。我们应该使用窗口函数，然后用row_number = 1过滤出数据帧以获取最新记录（按字段排序有助于赋予row_number）。

请按照以下链接。

http://xinhstechblog.blogspot.com/2016/04/spark-window-functions-for-dataframes.html

How to use Analytic/Window Functions in Spark Java?

2017-07-24 18:22:07 Achyuth

相关问题