我的数据是这样的:无法找到ID与重复字段
ID Email
1 [email protected]
2 [email protected]
3 [email protected]
4 [email protected]
5 [email protected]
6 [email protected]
应该有每个ID恰好1电子邮件,但事实并非如此。
> dim(data)
[1] 5071 2
> length(unique(data$Person_Onyx_Id))
[1] 5071
> length((data$Email))
[1] 5071
> length(unique(data$Email))
[1] 4481
所以,我需要找到与重复的电子邮件地址的ID。
看起来这应该很容易,但我剔除:
> sqldf("select ID, count(Email) from data group by ID having count(Email) > 1")
[1] ID count(Email)
<0 rows> (or 0-length row.names)
我也试着脱下having
条款,并将结果发送到一个对象,并通过count(Email)
排序的对象。 ..看来,每ID
有count(Email)
的1 ...
我会dput
的实际数据,但我不能由于电子邮件地址的敏感性。
看看'?duplicated' – shadow 2015-02-05 15:42:12
尝试'集团通过Emails'然后寻找的ID在那里,电子邮件数超过1 如果按ID你总是会得到1为计数(电子邮件) – 2015-02-05 15:43:17
@shadow '重复'给了逻辑(0)'Idk为什么,因为肯定有重复... – 2015-02-05 17:54:53