2017-04-26 183 views
0

我有一个multifasta文件,其中包含来自2个abinitio工具的预测蛋白质。每个序列最后都包含一个立体(*)。我想从文件中删除它。我的序列是这样的:从fasta文件中的fasta序列末端删除空间(*)

>snapgene1 
SFLPSAEAIEKVLSHMSRRIIDDMKAELQQPEMRWFWP* 
>snapgene2 
SFLPSAEAIEKVLSHIIIIAAAAKKKPPFFDDMKAELQQPEMRWFWP* 

我想要的序列是这样的:

>snapgen1 
SFLPSAEAIEKVLSHMSRRIIDDMKAELQQPEMRWFWP 
>snapgene2 
SFLPSAEAIEKVLSHIIIIAAAAKKKPPFFDDMKAELQQPEMRWFWP 

谁能帮我在这。三江源

回答

1

如果存储在一个文件 “TEMP.TXT” 的文字,你可以用命令:

sed -i "s/*$//" temp.txt 
+0

它的工作。非常感谢 –

0

在awk中,如果你把你的fastas在file

$ awk '{sub(/\*$/,"")}1' file 
>snapgene1 
SFLPSAEAIEKVLSHMSRRIIDDMKAELQQPEMRWFWP 
>snapgene2 
SFLPSAEAIEKVLSHIIIIAAAAKKKPPFFDDMKAELQQPEMRWFWP 

它取代尾随*什么也没有。