2010-05-16 124 views
0

基本上,我有一个这样的文件:从文本文件中提取数据以用于python脚本?

Url/Host: www.example.com 
Login:  user 
Password: password 
Data_I_Dont_Need: something_else 

如何使用正则表达式来分隔的细节把它们放在变量?

对不起,如果这是一个可怕的问题,我永远无法掌握RegEx。所以,另一个问题是,你能否提供RegEx,但是要解释它的每个部分是什么?

+2

使用str.split(“:”)不是一个选项吗? – extraneon 2010-05-16 19:02:51

回答

1

你应该把这些条目放在字典中,而不是放在很多单独的变量中 - 显然,你使用的键是n eed 不是可以被接受为变量名称('Url/Host'中的斜线将是一个杀手锏! - ),但是它们会像字符串键入字典一样好。

import re 

there = re.compile(r'''(?x)  # verbose flag: allows comments & whitespace 
        ^  # anchor to the start 
         ([^:]+) # group with 1+ non-colons, the key 
         :\s*  # colon, then arbitrary whitespace 
         (.*)  # group everything that follows 
         $   # anchor to the end 
        ''') 

然后

configdict = {} 
for aline in open('thefile.txt'): 
    mo = there.match(aline) 
    if not mo: 
    print("Skipping invalid line %r" % aline) 
    continue 
    k, v = mo.groups() 
    configdict[k] = v 

使RE模式“详细”(用(?x)启动它们或使用re.VERBOSE作为第二个参数re.compile)的可能性是非常有用的,让你澄清你的RE带有注释和很好的对齐空格。我认为这是可悲的使用不足;-)。

+0

很好的答案和很好的解释。我想我希望删除该值的潜在空白。我相信这可以通过在值组和行结束符'$'之间添加\ s *来完成? – extraneon 2010-05-16 19:09:23

+0

AttributeError:'NoneType'对象没有属性'group' – Rob 2010-05-16 20:58:42

+0

@Rob,你指的是'groups',而不是'group'。是的,我忘了添加明显需要的'continue'来做**跳过,让我添加它。顺便说一句,你的问题没有提到可以有不符合这种模式的线条,以及在找到这样的线条时该怎么办 - 请编辑你的Q以添加这些重要信息! – 2010-05-17 00:04:52

0

好吧,如果你不知道正则表达式,简单地改变你的文件是这样的:

Host = www.example.com 
Login = uer 
Password = password 

并使用ConfigParser的Python模块http://docs.python.org/library/configparser.html

+0

修改文件并不是一个真正的选择,但是谢谢 – Rob 2010-05-16 19:00:59

+0

ConfigParser支持':'分隔符http://stackoverflow.com/questions/2845018/extracting-data-from-a-text-file-to-use-in -a-python-script/2845923#2845923 – jfs 2010-05-16 23:29:23

0

编辑:更好的解决方案

for line in input: 
    key, val = re.search('(.*?):\s*(.*)', line).groups() 
1

对于像这样简单的文件,你并不需要正则表达式。字符串函数可能更容易理解。此代码:

def parse(data): 
    parsed = {}  
    for line in data.split('\n'): 
     if not line: continue # Blank line 
     pair = line.split(':') 
     parsed[pair[0].strip()] = pair[1].strip() 
    return parsed 

if __name__ == '__main__': 
    test = """Url/Host: www.example.com 
    Login:  user 
    Password: password 
""" 
    print parse(test) 

将做的工作,并导致:

{'Login': 'user', 'Password': 'password', 'Url/Host': 'www.example.com'} 
0

ConfigParser模块支持':'分隔符。

import ConfigParser 
from cStringIO import StringIO 

class Parser(ConfigParser.RawConfigParser): 
    def _read(self, fp, fpname): 
     data = StringIO("[data]\n"+fp.read()) 
     return ConfigParser.RawConfigParser._read(self, data, fpname) 

p = Parser() 
p.read("file.txt") 
print dict(p.items("data")) 

输出:

{'login': 'user', 'password': 'password', 'url/host': 'www.example.com'} 

虽然正则表达式或手动分析可能是在你的情况更合适。