2017-06-29 183 views
0

我想读取存储在Linux机器上一个文件夹中的大量.csv文件(几个千兆字节)的第一个和最后一个记录。假设他们被称为have1.csv, have2.csv, ...等。SAS - 读取多个csv文件的第一个和最后一个观察结果

所以我试了下面的代码,它只给了我第一行。但不是最后一行。

%let datapath = ~/somefolder/;  
data want; 

length finame $300.; 
/*Reference all CSV files in input data folder*/ 
infile "&datapath.have*.csv" delimiter="," 
     MISSOVER DSD lrecl=32767 firstobs=2 
     eov=eov eof=eof filename=finame end=done; 

/*Define input format of variables*/ 
informat Var1 COMMA. Var2 COMMA. Var3 COMMA.; 
/*Loop over files*/ 
do while(not done); 

    /*Set trailing @ to hold the input open for the next input statement 
     this is because we have several files */ 
    input @; 

    /*If first line in file is encountered eov is set to 1, 
     however, we have firstobs=2, hence all lines would be skipped. 
     So we need to reset EOV to 0.*/ 
    if eov then 
    do; 
     /*Additional empty input statement 
     handles missing value at first loop*/ 
     input; 
     eov = 2; 
    end; 
    /*First observation*/ 
    if eov=2 then do; 
     input Var1--Var3; 
     fname=finame; 
     output; 
     eov = 0; 
    end; 

     /*Last observation*/ 
     if 0 then do; 
      eof:  input Var1--Var3; 
        fname=finame; 
        output; 
     end; 
     input; 

end; 
stop; 

run; 

我非常感谢您的帮助!如果我误解了infile,end,eov,eof和input @的概念或相互作用,请告诉我!我不知道我的错误是...

+1

您是否还试图跳过标题行?那是关于FIRSTOBS = option的评论? – Tom

+0

是的,很抱歉没有提前回复。 –

回答

1

如果你想在你可以使用EOV =选项来INFILE语句中使用通配符创建一个变量来标记新文件何时开始。请注意,您需要手动重置EOV标志。

在读取值之前阅读并按住该行,以便可以测试新文件是否已启动。这样你可以输出前一个文件的最后一行。您还需要保留输入变量,以便前一个文件最后一行的值可用。

您还需要使用END =选项才能输出最后一个文件的最后一行。

例子:

data want ; 
    retain filename str; 
    length fname filename $200 ; 
    infile '/dir1/file*' filename=fname eov=eov end=eof truncover ; 
    input @; 
    if eov then output; 
    filename=fname ; 
    input str $30. ; 
    if _n_=1 or eov or eof then output; 
    eov=0; 
run; 

输出示例:

Obs filename  str 
1  /dir1/file1 Line1 
2  /dir1/file1 Line3 
3  /dir1/file2 Line1 
4  /dir1/file2 line4 
5  /dir1/file3 Line1 
6  /dir1/file3 Line3 

如果你想跳过每个文件的第一行(标题行)的input @;声明之后添加此语句。

if _n_=1 or eov then input; 

注意,您将需要调整的逻辑,如果有可能,你的输入文件并不都至少有两个数据线(三线计数标题行)。

+1

这是一个很好的答案,这是因为我的CSV文件不包含带有变量名称的标题行。不幸的是,我的...抱歉没有说清楚。 但是:有没有办法跳过每个文件中的第一个观察,以便PDV不会从第一行中的标题信息接收输入?在这种情况下,我认为你的解决方案与保留声明实际上将工作... –

+0

end =选项似乎只捕获最后一个文件的最后一行。无论如何,你证明没有while循环需要,谢谢。 – vasja

+0

跳过标题行并不难。使用EOV标志来了解何时需要跳过。 – Tom

1

这似乎为我工作,请尝试:

data want; 

length finame $300.; 
/*Reference all CSV files in input data folder*/ 
infile "E:\temp\test\have*.txt" delimiter="," 
     MISSOVER DSD lrecl=32767 
     eov=eov filename=finame end=done; 

     /* Note: firstobs option seems to work on first file only */ 

/*Define input format of variables*/ 
informat Var1 COMMA. Var2 COMMA. Var3 COMMA.; 

input; /* skip header in first file */ 

input Var1--Var3; /* read first real record in first file */ 
fname=finame; 
output; 

/* Loop over files*/ 
do while(not done); 

    input @;/* try input do determine eov condition */ 

    if eov then do;/* new file detected - we're on header record, but variables contain values from previous record - see "read values" */ 
     output; /* variables contain values from previous record - output those values */ 
     input; /* skip header */ 
     eov = 0; 
     input Var1--Var3; /* read first real observation */ 
     fname=finame; 
     output; /* first line of new file */ 
    end; 

    input Var1--Var3; /* read values - it might be last record */ 
end; 
output; /* output last record of last file */ 
run; 

其实,如下汤姆介绍,没有必要为while循环(危险的事情: - ))。 我现在已经修改了代码: (需要添加保留,因为我们在数据步骤本身循环)

data want; 

length finame $300.; 
/*Reference all CSV files in input data folder*/ 
infile "E:\temp\test\have*.txt" delimiter="," 
     MISSOVER DSD lrecl=32767 
     eov=eov filename=finame end=done; 

informat Var1 COMMA. Var2 COMMA. Var3 COMMA.; 
retain Var1 Var2 Var3 fname; 
if _N_ = 1 then do; /* first file */ 
    input; /* skip header in first file */ 
    input Var1--Var3; /* read first real record in first file */ 
    fname=finame; 
    output; 
end; 

input @; /* try input do determine eov condition */ 

if eov then do; /* new file detected - we've moved past header record, but variables contain values from previous record - see "read values" */ 
    output; /* variables contain values from previous record - output those values */ 
    input; /* skip header */ 
    eov = 0; 
    input Var1--Var3; /* read first real observation */ 
    fname=finame; 
    output; /* first line of new file */ 
end; 
else input Var1--Var3; 
if done then output; 
run; 
+0

这个很好用。输入每一行但只输出最后一行的技巧并没有出现在我身上......很好地完成了!谢谢! :D –

+0

对不起。我无法给出两个答案。汤姆是对的。他的代码更清晰一点。但你的作品也很好。我被撕裂......感谢你们的巨大帮助! :D –

1

如果您有文件列表,则代码更清晰。例如,如果您可以使用PIPE引擎,则可以使用ls(或Dir)命令来获取文件名。然后使用FILEVAR =选项来动态读取每个单独的文件。

data want ; 
    infile 'ls ~/test/dir1/file*' pipe truncover ; 
    input fname $200.; 
    filename=fname; 
    infile csv filevar=fname dsd truncover firstobs=2 end=eof ; 
    do _n_=1 by 1 while (not eof); 
    input str :$30. ; 
    if _N_=1 or eof then output; 
    end; 
run; 

或者,如果你的文件很大,你可以利用使用PIPE使用headtail命令来查找每个文件的开头和结尾,而不需要有SAS读取整个文件。您可能需要测试以确定它是否实际提高了性能。

data want ; 
    infile 'ls ~/test/dir1/file*' pipe truncover ; 
    input filename $200.; 
    length cmd1 cmd2 $200 ; 
    cmd1='head -2 '||filename ; 
    infile top pipe filevar=cmd1 dsd truncover firstobs=2 end=eof1 ; 
    if (not eof1) then do; 
    input str :$30. ; 
    output; 
    end; 
    cmd2='tail -1 '||filename ; 
    infile bottom pipe filevar=cmd2 dsd truncover firstobs=1 end=eof2; 
    if (not eof2) then do; 
    input str :$30. ; 
    output; 
    end; 
run; 
+0

头部和尾部解决方案不会更快。方式较慢。必须用find命令调整它''cd〜/ thepath; find。type -f -name“”* .csv“”-print“'生成列表... –

相关问题