我想删除每个组内的数据库中的冗余行(在本例中为数据源),我将其定义为包含严格少于其他行的信息或不同信息的行。删除组内的冗余条目
例如在下表中。第1行是冗余的,因为同一组中的另一行0包含与它完全相同的信息,但包含更多数据。
出于同样的原因,第6行是冗余的,组中的所有其他行3,4和5都包含更多信息。但是,我保留了第4行和第5行,因为它们与组中其他行有一些额外的不同信息。
datasource city country
0 1 Shallotte US
1 1 None US
2 2 austin US
3 3 Casselberry US
4 3 None AU
5 3 Springfield None
6 3 None None
时有更多的列,行0和1,4是不同的信息的一个例子。但第2行和第3行(或第1行)包含冗余信息。
datasource city country Count
0 1 None US 11
1 1 austin None None
2 1 None None 11
3 1 austin None None
4 1 None CA None
预计输出
datasource city country Count
0 1 None US 11
1 1 austin None None
4 1 None CA None
有,我可以为任意数量的列达到大熊猫或SQL(PostrgeSQL)这样的逻辑简单的方法是什么?
谢谢,但是这不工作,当有更多的列,我已经给了一个例子很抱歉,如果我的问题一开始并不清楚 – user113531
先生你对冗余数据的想法有点难以理解。你可以添加你想要的预期输出。 – Dark