我有大量条目的FASTA文件。虽然所有的DNA序列都不同,但一些FASTA名称是相同的。如果有多个名称的副本,我想附加一个数字,以使它们成为唯一的名称。例如:遍历FASTA条目,并重新命名重复
>NAME
ATTTTTGGGGGGTGTGTG
>NAME
ATTTTTTTTCGCGCGC
>NAME
AAACCCTTTGTG
将成为:
>NAME_1
ATTTTTGGGGGGTGTGTG
>NAME_2
ATTTTTTTTCGCGCGC
>NAME_3
AAACCCTTTGTG
感谢。
更新。因为我打算在R中使用它,所以我将fasta序列导入到R中,并将其作为数据帧df。那么我可以重命名,然后通过使用下面的行根据需要:
library(plyr)
ddply(df, Name_Column, transform, Column = paste(Name_Column,seq_along(Name_Column), sep=""))
码本post
谢谢马丁。我用Biostrings导入我的FASTA,但没有意识到他们有make.unique()函数。这非常有用。正如你所看到的,我使用了一种数据框方法,但是我必须从Biostring容器中获取一个数据帧,然后再执行一些额外的步骤。谢谢 – zach
@zach'make.unique'实际上是在R中;我们只是在这里使用它。 –