2012-04-25 396 views
5

我是一名python新手,但在其他语言中编写了一段时间。我有一串DNA(小写)和AA序列(大写)。进一步在文件的开头我有一个大写的蛋白质名称。因此我的文件看起来像这样。如何使用python在字符串中查找第一个非大写字母

PROTEINNAMEatcgatcg ... JFENVKDFDFLK

我需要找到字符串中的第一个非大写字母,这样我就可以再切出蛋白质的名称。因此,我会从上面要的是:

atcgatcg ... JFENVKDFDFLK

我可以用一个循环做到这一点,但似乎有点小题大做,效率低下。有没有简单的Python方法来做到这一点?

我可以使用re.findall(“[A-Z]”,mystring)获取所有大写字母,但是之后我需要做一个比较来查看结果与原始字符串的不同之处。

谢谢!

回答

4

你几乎有你的正则表达式...但也有其他方法,除了的findall:

http://docs.python.org/library/re.html#re.sub

>>> import re 
>>> protein_regex = re.compile('^[A-Z]+') 
>>> dna = 'PROTEINNAMEatcgatcg... JFENVKDFDFLK' 
>>> protein_regex.sub('', dna) 
'atcgatcg... JFENVKDFDFLK' 

不确定的表现,但你也可以做

>>> import string 
>>> dna.lstrip(string.uppercase) 
'atcgatcg... JFENVKDFDFLK' 

而你有它:

python -m timeit -n 10000 -s 'import re' -s 'protein_regex = re.compile("^[A-Z]+")' -s 'dna = "PROTEINNAMEatcgatcg... JFENVKDFDFLK"' 'protein_regex.sub("", dna)' 
10000 loops, best of 3: 1.36 usec per loop 

python -m timeit -n 10000 -s 'import string' -s 'dna = "PROTEINNAMEatcgatcg... JFENVKDFDFLK"' 'dna.lstrip(string.uppercase)' 
10000 loops, best of 3: 0.444 usec per loop 

第二个看起来要快3倍。

+0

lstrip正是我所需要的东西。用我的其他代码工作就像一个魅力! – user1357015 2012-04-25 19:35:49

1

使用re.search():

import re 
s1 = "ASDFASDFASDFasdfasdfasdfasdfasdf" 
m = re.search("[a-z]", s1) 
if m: 
    print "Digit found at position %d" % m.start() 
else: 
    print "No digit in that string" 
+0

这也可以,但需要额外的切割步骤。尽管我还在学习,但对我很有帮助。谢谢! – user1357015 2012-04-25 19:39:41

0

试试这个,这是因为短,因为它可以得到:

import re 
s = 'PROTEINNAMEatcgatcg... JFENVKDFDFLK' 
i = re.search('[a-z]', s).start() 
protein, sequences = s[:i], s[i:] 

print protein 
> PROTEINNAME 

print sequences 
> atcgatcg... JFENVKDFDFLK 
相关问题