跨多个文件匹配模式：perl或grep？

我有一个pattern.txt文件，该文件是这样的：其中有这样的线跨多个文件匹配模式：perl或grep？

2gqt+FAD+A+601 2i0z+FAD+A+501 
1n1e+NDE+A+400 2qzl+IXS+A+449 
1llf+F23+A+800 1y0g+8PP+A+320 
1ewf+PC1+A+577 2a94+AP0+A+336 
2ydx+TXP+E+1339 3g8i+RO7+A+1 
1gvh+HEM+A+1398 1v9y+HEM+A+1140 
2i0z+FAD+A+501 3m2r+F43+A+1 
1h6d+NDP+A+500 3rt4+LP5+C+501 
1w07+FAD+A+1660 2pgn+FAD+A+612 
2qd1+PP9+A+701 3gsi+FAD+A+902

有一个称为数据另一个文件（大约在大小为8GB）。

2gqt+FAD+A+601 2i0z+FAD+A+501 0.874585 0.785412 
1n1e+NDE+A+400 2qzl+IXS+A+449 0.145278 0.589452 
1llf+F23+A+800 1y0g+8PP+A+320 0.784512 0.341786 
1ewf+PC1+A+577 2a94+AP0+A+336 0.362542 0.784785 
2ydx+TXP+E+1339 3g8i+RO7+A+1  0.251452 0.365298 
1gvh+HEM+A+1398 1v9y+HEM+A+1140 0.784521 0.625893 
2i0z+FAD+A+501 3m2r+F43+A+1  0.369856 0.354842 
1h6d+NDP+A+500 3rt4+LP5+C+501 0.925478 0.365895 
1w07+FAD+A+1660 2pgn+FAD+A+612 0.584785 0.325863 
2qd1+PP9+A+701 3gsi+FAD+A+902 0.874526 0.125453

但是，数据文件并不像上面所给出的那样简单。该文件的大尺寸是由于其中大约有18000行，它在每行的第一列开始字符串。即以2gqt + FAD + A + 601开始的18000行，随后是以1n1e + NDE + A + 400开始的18000行。但会有只有一个这样的线，给定的模式相匹配，如pattern.txt

我想匹配数据pattern.txt的线路并想打印出：

2gqt+FAD+A+601 2i0z+FAD+A+501 0.785412 
1n1e+NDE+A+400 2qzl+IXS+A+449 0.589452 
1llf+F23+A+800 1y0g+8PP+A+320 0.341786 
1ewf+PC1+A+577 2a94+AP0+A+336 0.784785 
2ydx+TXP+E+1339 3g8i+RO7+A+1 0.365298 
1gvh+HEM+A+1398 1v9y+HEM+A+114 0 0.625893 
2i0z+FAD+A+501 3m2r+F43+A+1 0.354842 
1h6d+NDP+A+500 3rt4+LP5+C+501 0.365895 
1w07+FAD+A+1660 2pgn+FAD+A+612 0.325863 
2qd1+PP9+A+701 3gsi+FAD+A+902 0.125453

由于我现在用在Perl的东西，像这样：

use warnings; 
open AS, "combi_output_2_fixed.txt"; 
open AQ, "NAMES.txt"; 
@arr=<AS>; 
@arr1=<AQ>; 
foreach $line(@arr) 
{ 
    @split=split(' ',$line); 
    foreach $line1(@arr1) 
    { 
    @split1=split(' ',$line1); 
    if($split[0] eq $split1[0] && $split[1] eq $split1[1]) 
    { print $split1[0],"\t",$split1[1],"\t",$split1[3],"\n";} 
    } 

} 
close AQ; 
close AS;

这样做会占用整个内存：并显示内存不足的错误信息.. 我知道，这可以用grep来完成。但不知道hw做到这一点。任何人都可以请让我知道我怎么可以使用grep -F做到这一点，而不需要使用整个内存？

谢谢。

来源

2012-04-10 ana

pattern.txt是否适合内存？

如果是这样，您可以使用像grep -F -f pattern.txt data.txt这样的命令将data.txt中的行与模式匹配。尽管如此，你将得到完整的一行，并且需要额外的处理才能获得第二列数字。

或者你可以修复Perl脚本。你用完内存的原因是因为你完全读取8gb文件到内存，当你可以像grep一样逐行处理它时。对于8GB文件，你应该使用这样的代码：

open FH, "<", "data.txt"; 
while ($line = <FH>) { 
    # check $line against list of patterns ... 
}

来源

2012-04-10 07:50:31 Joni

是。 pattern.txt只是一个276kb的文件。 – ana 2012-04-10 08:44:57

尝试这个

grep "`more pattern.txt`" data.txt | awk -F' ' '{ print $1 " " $2 " " $4}'

来源

2012-04-10 07:50:58

跨多个文件匹配模式：perl或grep？

回答

相关问题