fasta

    3热度

    4回答

    我有一个文件1.blast与协调这样 1 gnl|BL_ORD_ID|0 100.00 33 0 0 1 3 27620 gnl|BL_ORD_ID|0 95.65 46 2 0 1 46 35296 gnl|BL_ORD_ID|0 90.91 44 4 0 3 46 35973 gnl|BL_ORD_ID|0 100.00 45 0 0 1 45 412

    1热度

    1回答

    我是python编程的新手,并且有一个fasta文件,我想解析它以便在特定软件中使用。该文件包含两行:1)在分类学的序列标识符和用空格隔开的分类法,和最后种名也可以包含空格,和2)的DNA序列(参见下面的实施例): >123876987 Bacteria;test;test;test test test ATCTGCTGCATGCATGCATCGACTGCATGAC >239847239 Ba

    0热度

    1回答

    我需要为以下术语解析FASTA头文件:叶,芽,茎和嫩芽,如果序列包含任何一个术语,则打开一个文件并将其放在那里使用Biopython。 所以我让他们转换为使用SeqIO.to_dict字典: from Bio import SeqIO records_dict = SeqIO.to_dict(SeqIO.parse("my_example.fasta","fasta")) 但现在我不知道如何

    0热度

    1回答

    我尝试使用头文件中的增量ID从.csv文件创建多个fasta。但是我的脚本运行不正常。任何建议? M=open('/home/anna/Scrivania/db_mat/matk_2db_c.csv','r') M_out=open('/home/anna/Scrivania/db_mat/db_matk_bronx.fas', 'w') for i in range[1,92]:

    0热度

    1回答

    我试图从Ensembl FASTA文件中找到蛋白质图案。我已经完成了大部分脚本,比如检索序列ID和序列本身,但是我收到了一些有趣的结果。 #!/usr/bin/perl use strict; use warnings; use autodie; my $motif1 = qr/(HE(\D)(\D)H(\D{18})E)/x; my $motif2 = qr/(AMEN)/x; m

    1热度

    1回答

    我有两个非常大的fasta文件,都是2GB左右。他们有一些序列共享相同的名称,所以它是这样的: 在R1.fasta: “> ABC001 ACTGTGTCGTG ”> ABC003 ACTGTGTCGTG “> ABC005 ACTGTGTCGTG “> ABC010 ACTGTGTCGTG and in R2.fasta “> ABC002 ACTGTGTCGTG ”> ABC003 ACTGT

    2热度

    4回答

    我想检索第n 个序列(或优选为正第至m 第序列),可与UNIX“一个理想的-衬垫”。 我知道我可以用perl(或任何其他脚本语言)读取序列,计数,然后打印序列,但我正在寻找更快,更紧凑的东西。 对于那些不知道,一个样本FASTA文件如下所示: >SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVS

    1热度

    5回答

    我有不同长度的每个文件中具有1000个seq的多个fasta文件。我想只保留每个序列的前200(n)个碱基。我如何在Perl中做到这一点?

    1热度

    5回答

    我是perl的新手。仍在学习。 我有一个fasta格式的文件。我想提取跨越特定位置的序列。例如,从位置200至300 >Contig[0001] TGCATCAAAAGCTGAAAATATGTAGTCGAGAAGTCATTTCGAGAAATTGACGTTTTAAGT TTCGGTTTCCAAATTCAACCGGATGTATCTTCGCCAATAATTGTCAGCAGTTAGAATTTC TT

    0热度

    5回答

    我刚刚开始尝试学习一些Python的第一步。目前正在通过旨在教授生物信息学python技能的Rosalind在线课程。 (非常好,请参阅:rosalind.info) 我正在努力解决一个特定的问题。我在FASTA格式的文件,其具有形式,因此: >Sequence_Header_1 ACGTACGTACGTACGTACGT ACGTACGTACGTACGTACGT >Sequence_Head