2015-03-31 76 views
1

我有一个完整的Uniprot ID文件。 现在我正在寻找一种方法来下载每个ID的整个XML条目。Biopython:通过蛋白质登录获取XML文件

+0

你有什么试过?请参考http://stackoverflow.com/help/how-to-ask它会让我们更好地帮助你 – 2015-03-31 09:26:07

回答

0

首先,您为每个UniProt ID构建一个URL以检索蛋白质的XML定义。

uniprot_id = 'P12345' 
url = 'http://www.uniprot.org/uniprot/'+uniprot_id+'.xml' 

可以构造网址通过改变字符串即“txt文件,.fasta,.RDF”的端部,以检索不同的数据格式。这link给出了有关uniprot访问模式的更多具体细节。

接下来你打开url并使用BioPython解析输出。或者,您可以将XML字符串保存到磁盘。

import urllib2 
from Bio import SeqIO 

uniprot_id = 'P12345' 
url = 'http://www.uniprot.org/uniprot/'+uniprot_id+'.xml' 
s = urllib2.urlopen(url) 
contents = s.read() 

record = SeqIO.read(contents, 'uniprot-xml') 
+0

非常感谢。我发现我实际上可以在Uniprot上传文本文件并以xml格式下载所有结果。有时答案很容易就马上想到。 – Rima 2015-04-10 10:19:03