2012-04-17 72 views
2

我偶然发现一个Genbank登录格式的文件(这里示出为一个最小的虚设例子),其包含嵌套特征是这样的:这是一个有效的Genbank功能描述或Biopython错误?

FEATURES    Location/Qualifiers 
    xxxx_domain  complement(complement(1..145)) 

这种特征崩溃当前Biopython Genbank登录解析器(1.59版本),但它显然没有在以前的版本中(例如1.55)。显然这个行为已经在1.57(见下面的评论)。

从Biopython错误追踪,似乎老locationparser代码得到了在1.56删除:

从我能从格式描述推断在ftp://ftp.ncbi.nih.gov/genbank/gbrel.txthttp://www.insdc.org/documents/feature_table.html#3.4.2这很可能是无效的。 (但请参阅下面的评论)。

有人可以对此发表评论。即这是Biopython中的一个小故障还是Genbank文件的格式?

完整演示文件:

LOCUS  XXXXXXXXXXXXXX   240 bp DNA  circular  17-JAN-2012 
DEFINITION xxxxxx. 
KEYWORDS xx. 
SOURCE  
    ORGANISM 
FEATURES    Location/Qualifiers 
    xxxx_domain  complement(complement(1..145)) 
        /vntifkey="1" 
        /label=A label 
        /note="A note" 
BASE COUNT  75 a  57 c  42 g  66 t 
ORIGIN 
     1 tttacaaaac gcattttcaa accttgggta ctaccccctt ttaaatatcc gaatacacta 
     61 ataaacgctc tttcctttta ggtaaacccg ccaatatata ctgatacaca ctgatagttt 
     121 aaactagatg cagtggccga ccatcagatc tagtaggaaa cagctatgac catgattacg 
     181 cattacttat ttaagatcaa ccgtaccagt ataccctgcc agcatgatgg aaacctccct 
// 

最小演示程序,以显示错误(假定Biopython 1.59和Python 2.7被安装和上述文件是可为“test.gb”:

#!/usr/bin/env python 
from Bio import SeqIO 
s = SeqIO.read(open("test.gb")), "r"), "genbank") 

这崩溃,并

raise LocationParserError(location_line) 
Bio.GenBank.LocationParserError: complement(1..145) 
+0

如果对你有帮助,我也会在v1.57上得到同样的错误。 略读[GenBank功能表定义](http://www.insdc.org/documents/feature_table.html),这似乎是完全有效的... – 2012-04-17 23:18:52

+0

谢谢。我编辑了主帖以包含评论。 – Marc 2012-04-18 08:11:51

+1

真正好的问题是为什么任何人都想补充补充... – EricR 2012-04-18 21:53:49

回答

1

我相信这是一个无效的位置。此从NCBI文件或其他地方?

请注意,对于Biopython 1.60(下一版本),我们计划将不良位置视为警告而不是停止解析的错误。

+0

从内部数据源(它与VNTI接触)。 – Marc 2012-04-19 08:43:49