2015-09-16 53 views
5

我有一系列的输入文件,如:分割线从INFILE在python

chr1 hg19_refFlat exon 44160380 44160565 0.000000 + . gene_id "KDM4A"; transcript_id "KDM4A"; 
chr1 hg19_refFlat exon 19563636 19563732 0.000000 - . gene_id "EMC1"; transcript_id "EMC1"; 
chr1 hg19_refFlat exon 52870219 52870551 0.000000 + . gene_id "PRPF38A"; transcript_id "PRPF38A"; 
chr1 hg19_refFlat exon 53373540 53373626 0.000000 - . gene_id "ECHDC2"; transcript_id "ECHDC2_dup2"; 
chr1 hg19_refFlat exon 11839859 11840067 0.000000 + . gene_id "C1orf167"; transcript_id "C1orf167"; 
chr1 hg19_refFlat exon 29037032 29037154 0.000000 + . gene_id "GMEB1"; transcript_id "GMEB1"; 
chr1 hg19_refFlat exon 103356007 103356060 0.000000 - . gene_id "COL11A1"; transcript_id "COL11A1"; 

在我的代码,我试图捕捉每行2个元素,第一个是后该号码它说,外显子,二是基因(该数字和字母组合的“包围”,如“KDM4A”这里是我的代码:

with open(infile,'r') as r: 
     start = set([line.strip().split()[3] for line in r]) 
     genes = set([line.split('"')[1] for line in r]) 
     print len(start) 
     print len(genes) 

出于某种原因开始工作正常,但基因是不是拍摄什么。这里是输出:

48050 
0 

我想,这是什么做的“”周围的基因的名字,但如果我进入这个在终端上正常工作:

>>> x = 'A b P "G" m' 
>>> x 
'A b P "G" m' 
>>> x.split('"')[1] 
'G' 
>>> 

任何解决方案将不胜感激?如果即使它是一种完全不同的方式来捕获每行的2项数据。由于

回答

8

那是因为你的文件对象被耗尽,当你遍历一次在这里start = set([line.strip().split()[3] for line in r])一次你在疲惫的文件对象试图循环这里genes = set([line.split('"')[1] for line in r])

解决方案:

您可以寻求该文件的开始(这是解决方案之一)

修改代码:

with open(infile,'r') as r: 
    start = set([line.strip().split()[3] for line in r]) 
    r.seek(0, 0) 
    genes = set([line.split('"')[1] for line in r]) 
    print len(start) 
    print len(genes) 
+0

好了,所以我应该在OP做些什么呢? – Kevin

+0

@Kevin编辑感谢 – The6thSense

+0

谢谢,我之前没有遇到过这个seek方法,非常有用。我接受这个答案,因为它的最短最简洁,并解决了1短代码 – user3062260

4

您可以使用正则表达式。

with open(file) as f: 
    start = [] 
    genes = [] 
    for line in f: 
     st, gen = re.search(r'\bexon\s+(\d+)\b.*?\s+gene_id\s+"([^"]*)"', line).groups() 
     start.append(st) 
     genes.append(gen) 
    print set(start) 
    print set(genes) 

DEMO

+0

现在你有两个问题! –

+0

但是'start'和'genes'现在不是字符串而是集合吗?看起来与OP最初有什么不同。 – Kevin

+0

@Kevin好赶上..现在没关系,我认为.. –

2

您可以将所有的行加载到一个列表,然后在该列表中的每个项目执行split

with open(infile) as r: 
    lines = [line for line in r] 
    start = set([line.strip().split()[3] for line in lines]) 
    genes = set([line.split('"')[1] for line in lines]) 
(不知道是如果文件是长的效率有多高)
+0

我曾想过这件事,但该文件是巨大的,我需要循环通过24个类似大小的文件,所以这将需要年龄。 – user3062260

2

使用shlex(因为它就像外壳参数),可以中和多个空格和引用
不确定它是否更快,但安全且有点不错

import shlex 
with open(infile, 'r') as f: 
    for line in f: 
     parts = shlex.split(line.replace(';', '')) 
     print parts[3], parts[9] 
+0

我之前没有遇到shlex,它似乎很好地解决了这个问题。重置循环似乎是最简单的解决方案。 – user3062260

2

无法加载genes的原因是您需要重新从头开始读取文件。下面的方法虽然应该工作:

import re 

start = set() 
genes = set() 

with open('input.txt', 'r') as f_input: 
    for line in f_input: 
     s, g = re.match(r'(?:.*?\s+){3}(\d+).*"(\w+)"', line).groups() 
     start.add(s) 
     genes.add(g) 

print start 
print genes 

给你的输出:

set(['44160380', '29037032', '103356007', '19563636', '53373540', '52870219', '11839859']) 
set(['COL11A1', 'PRPF38A', 'KDM4A', 'C1orf167', 'EMC1', 'GMEB1', 'ECHDC2_dup2'])