2017-06-20 103 views
0

我有一个带有重复观测的SparkR DataFrame。我找不到一个简单的方法来删除重复项,似乎PySpark dropDuplicates()函数在SparkR中不可用。例如,如果我有以下DataFrame,如何根据fullname重复的事实删除第2行和第4行?删除SparkR DataFrame中的重复观察

newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"), 
    surname = c("Smith", "Smith", "Taylor", "Taylor"), 
    value = c(1.5, 1.5, 3.2, 3.2)) 
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname)) 

|name | surname | value | fullname | 
|--------|---------|-------|-----------| 
|Thomas | Smith | 1.5 |ThomasSmith| 
|Thomas | Smith | 1.5 |ThomasSmith| 
|Bill | Taylor | 3.2 |BillTaylor | 
|Bill | Taylor | 3.2 |BillTaylor | 

回答

1

有在sparkR功能dropDuplicates也可以使用如

dropDuplicates(newHire, "fullname") 

请参阅here

希望这有助于!

+0

谢谢!不知道我以前错过了它。 –

+0

感谢upvote和接受作为答案:) –