我试图自动化我的数据清理过程。我的数据集看起来像这样:重复检测+用dplyr创建新列R
ADDRESS PHONE TYPE 123 Willow Street 7429947 RESIDENTIAL 123 Willow Street 7426629 RESIDENTIAL 234 Butter Road 7564123 RESIDENTIAL
它相当大 - 几十万行。我想能够做到以下事情:
(1)重复检测,所以我可以消除“几乎” - 重复的行。
(2)为非重复数据创建一个新列 - 类似PHONE 2.问题是我无法事先知道是否只有2个重复行 - 可能是n。
结果将希望是这样的:
ADDRESS PHONE PHONE 2 TYPE 123 Willow Street 7429947 7426629 RESIDENTIAL 234 Butter Road 7564123 RESIDENTIAL
我很想与dplyr要做到这一点,但我在茫然,从哪里开始我的那种。任何指针?
什么是在上述情况下预期的输出?你保留哪一行?什么使得某些事情成为预期的重复? – Gopala
@Gopala - 谢谢 - 我编辑包含预期的输出。 –
手机是唯一可以处理的专栏吗?如果地址稍有不同,该怎么办?您的问题/要求仍不明确。 – Gopala