我需要了解如何根据Spark中使用Java的单个数据框从数据框中删除重复的行。如何根据Spark SQL中的单个列删除重复的行使用JAVA
与正常的SQL一样,ROW_NUMBER()OVER(PARTITION BY col ORDER BY COL DESC)。如何将此步骤转换为Java中的Spark SQL?
我需要了解如何根据Spark中使用Java的单个数据框从数据框中删除重复的行。如何根据Spark SQL中的单个列删除重复的行使用JAVA
与正常的SQL一样,ROW_NUMBER()OVER(PARTITION BY col ORDER BY COL DESC)。如何将此步骤转换为Java中的Spark SQL?
您可以使用dataframe.dropDuplicates(“col1”)从数据框中删除重复项。它将删除在col1中重复的所有行。该API可从病房的Spark 2.x获得。
您正在正确查看。我们应该使用窗口函数,然后用row_number = 1过滤出数据帧以获取最新记录(按字段排序有助于赋予row_number)。
请按照以下链接。
http://xinhstechblog.blogspot.com/2016/04/spark-window-functions-for-dataframes.html