fasta

3热度

4回答

我有一个文件1.blast与协调这样 1 gnl|BL_ORD_ID|0 100.00 33 0 0 1 3 27620 gnl|BL_ORD_ID|0 95.65 46 2 0 1 46 35296 gnl|BL_ORD_ID|0 90.91 44 4 0 3 46 35973 gnl|BL_ORD_ID|0 100.00 45 0 0 1 45 412

1热度

1回答

如何对文件中的多个字符串执行若干修改并输出到新文件

我是python编程的新手，并且有一个fasta文件，我想解析它以便在特定软件中使用。该文件包含两行：1）在分类学的序列标识符和用空格隔开的分类法，和最后种名也可以包含空格，和2）的DNA序列（参见下面的实施例）： >123876987 Bacteria;test;test;test test test ATCTGCTGCATGCATGCATCGACTGCATGAC >239847239 Ba

0热度

1回答

从FASTA头文件中提取条款

我需要为以下术语解析FASTA头文件：叶，芽，茎和嫩芽，如果序列包含任何一个术语，则打开一个文件并将其放在那里使用Biopython。所以我让他们转换为使用SeqIO.to_dict字典： from Bio import SeqIO records_dict = SeqIO.to_dict(SeqIO.parse("my_example.fasta","fasta")) 但现在我不知道如何

0热度

1回答

Python：在fasta头文件中添加增量ID

我尝试使用头文件中的增量ID从.csv文件创建多个fasta。但是我的脚本运行不正常。任何建议？ M=open('/home/anna/Scrivania/db_mat/matk_2db_c.csv','r') M_out=open('/home/anna/Scrivania/db_mat/db_matk_bronx.fas', 'w') for i in range[1,92]:

0热度

1回答

无法从Emsembl FASTA删除换行符

我试图从Ensembl FASTA文件中找到蛋白质图案。我已经完成了大部分脚本，比如检索序列ID和序列本身，但是我收到了一些有趣的结果。 #!/usr/bin/perl use strict; use warnings; use autodie; my $motif1 = qr/(HE(\D)(\D)H(\D{18})E)/x; my $motif2 = qr/(AMEN)/x; m

1热度

1回答

如何在两个非常大的fasta文件中找到具有相同名称的序列并将它们连接在一起？

我有两个非常大的fasta文件，都是2GB左右。他们有一些序列共享相同的名称，所以它是这样的：在R1.fasta： “> ABC001 ACTGTGTCGTG ”> ABC003 ACTGTGTCGTG “> ABC005 ACTGTGTCGTG “> ABC010 ACTGTGTCGTG and in R2.fasta “> ABC002 ACTGTGTCGTG ”> ABC003 ACTGT

2热度

4回答

从FASTA文件输入从FASTA文件获取特定的序列与正则表达式

我想检索第n 个序列（或优选为正第至m 第序列），可与UNIX“一个理想的-衬垫”。我知道我可以用perl（或任何其他脚本语言）读取序列，计数，然后打印序列，但我正在寻找更快，更紧凑的东西。对于那些不知道，一个样本FASTA文件如下所示： >SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVS

1热度

5回答

fasta：在n长度后删除序列

我有不同长度的每个文件中具有1000个seq的多个fasta文件。我想只保留每个序列的前200（n）个碱基。我如何在Perl中做到这一点？

1热度

5回答

根据位置提取fasta序列

我是perl的新手。仍在学习。我有一个fasta格式的文件。我想提取跨越特定位置的序列。例如，从位置200至300 >Contig[0001] TGCATCAAAAGCTGAAAATATGTAGTCGAGAAGTCATTTCGAGAAATTGACGTTTTAAGT TTCGGTTTCCAAATTCAACCGGATGTATCTTCGCCAATAATTGTCAGCAGTTAGAATTTC TT

0热度

5回答

将公式应用到数据行，它跨越多行

我刚刚开始尝试学习一些Python的第一步。目前正在通过旨在教授生物信息学python技能的Rosalind在线课程。（非常好，请参阅：rosalind.info）我正在努力解决一个特定的问题。我在FASTA格式的文件，其具有形式，因此： >Sequence_Header_1 ACGTACGTACGTACGTACGT ACGTACGTACGTACGTACGT >Sequence_Head