2016-11-18 70 views
2

我有一个简单的例子,我想解析2行数据。如何在PyParsing中从结果对象中检索值列表?

In [1] from pyparsing import Word, nums, OneOrMore, Optional, Suppress, alphanums, LineEnd, LineStart 

     Float = Word(nums + '.' + '-') 
     Name = Word(alphanums) 
     Line = OneOrMore(Float)('data') + Suppress(Optional(';')) + Optional('%') + Optional(Name)('name') 

     Lines = OneOrMore(Line + LineEnd()) 

     string = ''' 1 10 0  T20 
      1 76 0 T76 
     ''' 
     result = Lines.parseString(string) 

In [2] result 
Out[2] (['1', '10', '0', 'T20', '\n', '1', '76', '0', 'T76', '\n'], {'data': [(['1', '10', '0'], {}), (['1', '76', '0'], {})], 'name': ['T20', 'T76']}) 

结果对象包含了所有我需要的值,即data值和name键与项目列表顺序根据就行了。我如何从结果对象获取值?

访问数据属性并没有给两行

In [3] result.data 
Out[3] (['1', '76', '0'], {}) 

In [4] for i in result.data: 
      print i 
     1 
     76 
     0 

asDict()方法只返回第二行

In [5]: result.asDict() 
Out[5]: {'data': ['1', '76', '0'], 'name': 'T76'} 

asList()方法返回一个列表中的所有信息,并且很难当你不知道namedata提前时间长度

In [6]: result.asList() 
Out[6]: ['1', '10', '0', 'T20', '\n', '1', '76', '0', 'T76', '\n'] 

asXML()包含我需要的所有内容,但它是XML格式,并且文档字符串表示它将很快被弃用。

In [7]: print result.asXML() # The documentation says this will be deprecated 
     <data> 
      <data>1</data> 
      <ITEM>10</ITEM> 
      <ITEM>0</ITEM> 
      <name>T20</name> 
      <ITEM> 
     </ITEM> 
      <data>1</data> 
      <ITEM>76</ITEM> 
      <ITEM>0</ITEM> 
      <name>T76</name> 
      <ITEM> 
     </ITEM> 
     </data> 

dump()再次部分包含了相关信息,但它返回一个字符串,一个人必须要再次解析字符串信息。

In [8]: print result.dump() 
     ['1', '10', '0', 'T20', '\n', '1', '76', '0', 'T76', '\n'] 
     - data: ['1', '76', '0'] 
     - name: 'T76' 

如何以Pythonic方式获取这些值?

回答

1

使用结果名称做得很好,它们在访问分析字段时非常有用。但是,这听起来像你需要结构的层添加到您的解析器,使每一行都有自己的数据,名称等,您可以做到这一点的只是重新定义为行:

Lines = OneOrMore(Group(Line) + LineEnd().suppress()) 

现在,如果你打印(result.dump()),您将获得:

[['1', '10', '0', 'T20'], ['1', '76', '0', 'T76']] 
[0]: 
    ['1', '10', '0', 'T20'] 
    - data: ['1', '10', '0'] 
    - name: 'T20' 
[1]: 
    ['1', '76', '0', 'T76'] 
    - data: ['1', '76', '0'] 
    - name: 'T76' 

转储()的输出并不意味着要分析得到的值,它的目的是帮助您展示如何结构化值可以被检索到。举例来说,你可以这样做:

print(result[1].data) 
print(result[1].name) 

,并得到

['1', '76', '0'] 
T76 

或:

for parsed_line in result: 
    print("{name}: {data}".format_map(parsed_line)) 

,并得到:

T20: ['1', '10', '0'] 
T76: ['1', '76', '0'] 
+1

哇感谢详细的,非常有用的答案保罗。我真的很喜欢你不仅对所问的问题给出了一个很好的答案,而且总是设法潜入其中的一些附加花絮(我到目前为止还不了解format_map):)再次感谢,并且在包装上做得非常好! – kdheepak