Python - 词法分析和标记化

我期待加快我在这里的发现过程，因为这是我进入词汇分析世界的第一次冒险。也许这是错误的道路。首先，我将描述我的问题：Python - 词法分析和标记化

我有很大的属性文件（以1,000个属性的顺序排列），当它们被提取时，它们实际上只是大约15个重要属性，其余的可以生成或很少更改。

因此，举例来说：

general { 
    name = myname 
    ip = 127.0.0.1 
} 

component1 { 
    key = value 
    foo = bar 
}

这是我想创造来标记类似的格式类型：

property.${general.name}blah.home.directory = /blah 
property.${general.name}.ip = ${general.ip} 
property.${component1}.ip = ${general.ip} 
property.${component1}.foo = ${component1.foo}

到

property.mynameblah.home.directory = /blah 
property.myname.ip = 127.0.0.1 
property.component1.ip = 127.0.0.1 
property.component1.foo = bar

词法分析和符号化听起来像我最好的路线，但这是一个非常简单的形式。这是一个简单的语法，一个简单的替换，我想确保我没有带大锤敲钉子。

我可以创建自己的词法分析器和标记器，或ANTlr是一种可能性，但我不喜欢重新发明轮子，ANTlr听起来像是过度杀伤。

我对编译器技术并不熟悉，所以在正确的方向指针&代码将不胜感激。

注意：我可以改变输入格式。

来源

2010-03-01 Philip Reynolds

为什么不使用的，而不是创建自己的解析器JSON ?? – AndiDog 2010-03-01 20:39:12

您的示例翻译似乎有一些错误。如果没有，我不明白为什么在示例的第3行中将“$ {component1} .ip”转换为“component1”。如果语法是正则表达式，我可能会用正则表达式翻译$ {identifiers}，并用没有字典条目的字典查找来替换它们。 – msw 2010-03-01 20:42:15

那里有一些错误，我想我已经纠正了它们。 – 2010-03-01 20:45:26

关于Using Regular Expressions for Lexical Analysis在effbot.org有一篇很好的文章。

适应记号赋予你的问题：

import re 

token_pattern = r""" 
(?P<identifier>[a-zA-Z_][a-zA-Z0-9_]*) 
|(?P<integer>[0-9]+) 
|(?P<dot>\.) 
|(?P<open_variable>[$][{]) 
|(?P<open_curly>[{]) 
|(?P<close_curly>[}]) 
|(?P<newline>\n) 
|(?P<whitespace>\s+) 
|(?P<equals>[=]) 
|(?P<slash>[/]) 
""" 

token_re = re.compile(token_pattern, re.VERBOSE) 

class TokenizerException(Exception): pass 

def tokenize(text): 
    pos = 0 
    while True: 
     m = token_re.match(text, pos) 
     if not m: break 
     pos = m.end() 
     tokname = m.lastgroup 
     tokvalue = m.group(tokname) 
     yield tokname, tokvalue 
    if pos != len(text): 
     raise TokenizerException('tokenizer stopped at pos %r of %r' % (
      pos, len(text)))

为了测试它，我们这样做：

stuff = r'property.${general.name}.ip = ${general.ip}' 
stuff2 = r''' 
general { 
    name = myname 
    ip = 127.0.0.1 
} 
''' 

print ' stuff '.center(60, '=') 
for tok in tokenize(stuff): 
    print tok 

print ' stuff2 '.center(60, '=') 
for tok in tokenize(stuff2): 
    print tok

为：

========================== stuff =========================== 
('identifier', 'property') 
('dot', '.') 
('open_variable', '${') 
('identifier', 'general') 
('dot', '.') 
('identifier', 'name') 
('close_curly', '}') 
('dot', '.') 
('identifier', 'ip') 
('whitespace', ' ') 
('equals', '=') 
('whitespace', ' ') 
('open_variable', '${') 
('identifier', 'general') 
('dot', '.') 
('identifier', 'ip') 
('close_curly', '}') 
========================== stuff2 ========================== 
('newline', '\n') 
('identifier', 'general') 
('whitespace', ' ') 
('open_curly', '{') 
('newline', '\n') 
('whitespace', ' ') 
('identifier', 'name') 
('whitespace', ' ') 
('equals', '=') 
('whitespace', ' ') 
('identifier', 'myname') 
('newline', '\n') 
('whitespace', ' ') 
('identifier', 'ip') 
('whitespace', ' ') 
('equals', '=') 
('whitespace', ' ') 
('integer', '127') 
('dot', '.') 
('integer', '0') 
('dot', '.') 
('integer', '0') 
('dot', '.') 
('integer', '1') 
('newline', '\n') 
('close_curly', '}') 
('newline', '\n')

来源

2010-03-01 22:36:45

Fyi，[这种标记器]（http://docs.python.org/3.2/library/re.html#writing-a-tokenizer）将其加入到're'模块的stdlib文档中 – cfi 2013-04-22 09:13:55