2016-02-05 193 views
2

我有一个文件,其中我需要按顺序排列其中一列。我已经订购了几行相同但面对齐的问题。我没有得到如何保持列对齐。如何保持列左对齐在perl

以下是我在哪里集中在只有6列我的参考文件:

ATOM  1 CA GLY P 12  9.393 37.464 31.388 0.00 0.00  P1  
ATOM  2 CA SER P 13  12.158 39.603 32.954 0.00 0.00  P1 
ATOM  3 CA VAL P 52  41.104 47.186 31.473 0.00 0.00  P1  
ATOM  4 CA GLN P 164  36.217 27.890 29.620 0.00 0.00  P1  
ATOM  5 CA GLN P 165  34.809 29.586 32.649 0.00 0.00  P1  
ATOM  6 CA GLY P 12  10.007 25.374 54.523 0.00 0.00  P2  
ATOM  7 CA SER P 13  13.212 23.440 53.698 0.00 0.00  P2  
ATOM  8 CA ASP P 14  16.884 24.084 54.463 0.00 0.00  P2 

以下是我的代码:

#!/usr/bin/perl 
use warnings; 
use strict; 

open (DATA, "<try.pdb") or die "not"; 
open (FILE,">file.txt") or die "no"; 
my $n=11; 
foreach my $line1 (<DATA>){ 

if ($line1 =~ m/^ATOM\s+\d+\s+[A-Z]+\s+[A-Z]+\s+P\s+(\d+)/){ 

$line1 =~ s/$1/$n/g; 
print FILE $line1; 
} 
$n++; 
} 

以下是我的输出,其中的第4和第5行排列得到了改变因为在参考文件中有三位数字。

ATOM  1 CA GLY P 12  9.393 37.464 31.388 0.00 0.00  P1  
ATOM  2 CA SER P 13  12.158 39.603 32.954 0.00 0.00  P1 
ATOM  41 CA VAL P 14  41.104 47.186 31.473 0.00 0.00  P1  
ATOM 153 CA GLN P 15  36.217 27.890 29.620 0.00 0.00  P1  
ATOM 154 CA GLN P 16  34.809 29.586 32.649 0.00 0.00  P1  
ATOM 155 CA GLY P 17  10.007 25.374 54.523 0.00 0.00  P2  
ATOM 156 CA SER P 18  18.212 23.440 53.698 0.00 0.00  P2  
ATOM 157 CA ASP P 19  16.884 24.084 54.463 0.00 0.00  P2 

回答

0

有两个解决办法 - 要么sprintf设置字段宽度进行打印或使用\t

$line1 = join ("\t", split (' ', $line1)); 

此将其分解的任何空白,并一起再次与制表位坚持回来。应该再次对齐列。

使用sprintf您可以指定一种格式,并允许您配置例如前导零,小数位数或只是字符串对齐。我认为这对你正在做的事情可能有点矫枉过正。

+0

@Sorbique用户输入看起来像PDB格式。大多数pdb文件在原子记录中不会有空白。所以最好避免使用分割和空白的PDB文件。 – mkHun

+0

@mkHun咦?问题中的示例数据中有空格。 –

+0

@MattJacob示例数据包含空白,但大多数PDB文件没有空白,例如来自此PDB文件的“ATOM 188 O HIS A 24 19.075 22.262 50.693 1.00108.06 O”(http://www.rcsb.org/) PDB /文件/ 1mkh.pdb)。因此,大多数生物信息学家使用'substr'通过此PDB格式(http://deposit.rcsb.org/adit/docs/pdb_atom_format.html)以固定偏移量和长度提取数据。:) – mkHun

0

脚本有两个问题。先用3位第六列中的空间对准条目

第二上正则表达式使用g标志的这则会覆盖出现这种情况是一样的第6列

下面的脚本校正这两个的任何其它数据问题。通过匹配空格和第6列中的数字并代入偶数的空白来克服空间对齐。这将使用$ n最多4位数字,并假设6列中的数字不会出现在第6列之前。如果确实如此,那么正则表达式会改变第一个数字。

#!/usr/bin/perl 
use warnings; 
use strict; 

open(DATA, "<try.pdb") or die "not"; 

#open (FILE,">file.txt") or die "no"; 
my $n = sprintf("%4d", 98); 
foreach my $line1 (<DATA>) { 

    if ($line1 =~ m/^ATOM\s+\d+\s+[A-Z]+\s+[A-Z]+\s+P(\s+\d+)/) { 

     $line1 =~ s/$1/ $n/; 
     print $line1; 
    } 
    $n++; 
    $n = sprintf("%4d", $n); 
}