fasta

    1热度

    1回答

    我有一个python脚本需要逐字读取FASTA文件。为此,我一直在使用c = f.read(1),其中f是打开的文件。我需要它来识别它何时到达行尾,但'\ n'和'\ r'似乎不起作用。我以前从来没有使用过这种文件类型,所以我不确定FASTA是不同的。有谁知道如何做到这一点?谢谢! 编辑:EOF!= EOL。我知道如何找到文件的结尾。 编辑2:我使用搜索的EOL字符的行是这样的: if c ==

    3热度

    3回答

    我想读取一个fasta文件,然后找到特定的主题(字符串)并打印出它的序列和次数。一个fasta文件只是一系列以标题行开头的序列(字符串),而标题或新序列的开始标记为“>”。在一个新的行后立即标题是字母顺序。我没有完成代码,但到目前为止,我有这个,它给了我这个错误: AttributeError:'str'对象没有'next'的属性 我不确定这里有什么问题。 import re header="

    2热度

    3回答

    我试图以一种与平台无关的方式复制Linux shell的cat功能,以便我可以将两个文本文件合并到下列方式: file_1包含: 42 bottles of beer on the wall file_2包含: Beer is clearly the answer 合并后的文件应包含: 42 bottles of beer on the wall Beer is clearly the

    0热度

    2回答

    我有像这样 ">ENS..._intronX acgtacgtacgtacgt ">ENS..._intronY acgtacgtNNNNa acgtacgtacgtacgt ">ENS..._intronZ acgtacgtacgtacgt acgtacgtacgtacgt 我需要在一排与至少2 N以除去序列(因为这些内含子misannotated)一个FASTA文件的fast

    1热度

    4回答

    喜价值,我有一个文本文件中像这样: >NM_145914.2:212 TCTGATGGTAAAAGTCGAGGAGAAAGAAGA >NM_000614.3:1086 ATTCAATTTAAAATCAGACTCTTTAGTTGA >NM_012096.2:2808 CAGTTAAGGTTTCAAATTGTGGCAGGTGGT >NM_173465.3:1682 GTGCGTCGGGT

    0热度

    1回答

    我是python的新手,试图通过所有与我想要但尚未得到答案相关的问题。我想在具有特定fasta ID的文件中提取连续fasta序列的块,并将这些序列写入单独的文件中。文件内容是异构的(在某些地方,fasta ID后面没有序列)。输入文件是为这样: >ENS00000004062_species1 >ENS00000004062_species2 >ENS00000004062_species3

    0热度

    1回答

    我有两个文件,第一个(file1)包含几个rexeges,而另一个(file2)包含FASTA序列。我的意图是使用file1中的正则表达式来检查它们是否匹配file2中的任何Fasta序列,并打印匹配至少一个序列的任何正则表达式,以及它们匹配的序列的数量。我希望提供我的示例代码,但我甚至无法开始。请帮忙。 file1的结构是这样的:每行都有一个ID,后跟'>>',然后是正则表达式; e.g FGE

    0热度

    2回答

    的多行字符串我想提取输入文件中的字符串,如以下: >a11 UCUUUGGUUAUCUAGCUGUAUGA >a11 UCUUUGGUUAUCUAGCUGUAUGA >b22 UGGUCGACCAGUUGGAAAGUAAU >b22 ACUUCACCUGGUCCACUAGCCGU >b22 AGGUUGUCUGUGAUGAGUUCG >t33 UUAAUGCUAAUCGUGA

    1热度

    2回答

    我已经知道恒立这个库有一段时间了,但是我到现在还没有尝试过使用它,主要是因为直到现在python对我来说足够快。 这里是链接到报头:用于长度为序列行http://lh3lh3.users.sourceforge.net/kseq.shtml 当我尝试使用以下方法来解析的fasta文件,则返回-1。我查看了李的代码,这似乎主要是为了FASTQ解析而设计的,但他在他的网页上说过它也支持FASTA格式。

    3热度

    2回答

    我有一个FASTA文件,可以很容易地被SeqIO.parse解析。 我有兴趣提取序列号和序列长度。我用这些行做的,但我觉得这是waaaay太沉重(两次迭代,转换等) from Bio import SeqIO import pandas as pd # parse sequence fasta file identifiers = [seq_record.id for seq_recor