对于初学者我知道我的问题类似于This(这是最接近我的问题,我发现),但同时有一些差异,因此我的新帖子。SAS最有效的方法来消除重复
我有一个标识符和声明的数据库。声明被构造为标识符+字母。 如果标识符是123456,则声明将为“123456A”,“123456B”等
我想为每个标识符选择一个观察值,声明是带有最后一个字母的声明,即当然,并不总是一样的。
我认为我可以做到这一点与一个进程进行排序,然后另外一个与nodupkey:
proc sort data=have out=have2;
by identifier declaration /descending;
run;
proc sort data=have2 out=want nodupkey;
by declaration;
run;
,但因为我有一个比较重要的数据库(数以千万计的意见),我想知道什么是最好的如果它是另一个更合适和最快的方法的感觉。 通常情况下,如果有可能在一个步骤。
谢谢
如果你有足够的内存试试上面这可能会更快的链接乔的哈希解决方案。 – Reeza 2014-10-02 13:40:36
你有多少个不同的'identifier'值? – Joe 2014-10-03 18:48:51
我有几百万个不同的标识符。更确切地说,大多数标识符只有一个声明,大约20%有两个,1%左右有三个或更多。 – 2014-10-05 10:15:03