2017-05-08 76 views
1

似乎第一个ParseExpression应该失败时,MatchFirst似乎不会传递到下一个ParseExpression。MatchFirst不传递给第二个ParseExpression?

我有一个具有一个报头中的文件(从OrCAD的BOM提取物),与组分信息和续行线部分的引用:

(名为test_string_body,突片在间隔组件部分一起使用)

SCH, WACI Revised: Wednesday, March 29, 2017 
357403-01   Revision: A 

Bill Of Materials   March 29,2017  17:53:04 Page1 

Item P/N Quantity Value PCB Footprint Part Reference 
______________________________________________ 

1 177347 5 100P capc1608_is0603n C1,C2,C3,C4,C5 
2 176054 9 1.0uF capc3216_is1206n C6,C23,C32,C88,C95,C98, 
    C99,C140,C141 
3 177606 31 100P capc1005_is0402n C7,C8,C9,C10,C11,C12,C13, 
    C14,C15,C16,C53,C56,C64, 
    C69,C261,C262,C263,C268, 

Visible whitespace

为了解析这些全行我用:

grammer_line_full = (LineStart() + Word(nums, min=1)('cmpt_item') + 
        Word(nums)('cmpt_part_num') + 
        Word(nums)('cmpt_qty') + 
        Word(printables)('cmpt_value') + 
        Word(alphanums + '_')('cmpt_footprint') + 
        Word(alphanums + ',')('cmpt_references1') 
        ) 

并为续行:

grammer_line_short = White('\t', exact=5) + Word(alphanums + ',')('cmpt_references2') 

如果我设置:

grammer_body = grammer_line_full 

或我设置:

grammer_body = grammer_line_short 

我得到我期待的结果(只是把适当的行):

for match, start, stop in grammer_body.parseWithTabs().scanString(test_string_body): 
    print(match) 

如果我设置:

grammer_body = grammer_line_full | grammer_line_short 

我只能得到完整的行吗?

grammer_line_full or grammer_line_full | grammer_line_short:

['1', '177347', '5', '100P', 'capc1608_is0603n', 'C1,C2,C3,C4,C5'] 
['2', '176054', '9', '1.0uF', 'capc3216_is1206n', 'C6,C23,C32,C88,C95,C98,'] 
['3', '177606', '31', '100P', 'capc1005_is0402n', 'C7,C8,C9,C10,C11,C12,C13,']... 

只是grammer_line_short:

['\t\t\t\t\t', 'C99,C140,C141'] 
['\t\t\t\t\t', 'C14,C15,C16,C53,C56,C64,'] 
['\t\t\t\t\t', 'C69,C261,C262,C263,C268,']... 

如果我删除

White('\t', exact=5) + 
从grammer_line_short

,发现连续行,但它也符合从头部一堆东西:

... 
['Part'] 
['Reference'] 
['1', '177347', '5', '100P', 'capc1608_is0603n', 'C1,C2,C3,C4,C5'] 
['2', '176054', '9', '1.0uF', 'capc3216_is1206n', 'C6,C23,C32,C88,C95,C98,'] 
['C99,C140,C141']... 

我添加了:

+ White('\t', exact=1).suppress() 

给grammer_line_full中的每个元素,它没有改变任何东西。

我最终将连续线部分引用与完整行值连接起来,所以我想我需要分别解析它们。我的最终目标是解析所有标题信息(代码未显示,有解析器)和所有组件信息。

我知道有空格的工作不是首选,但它似乎处理这种不同之处在于它不为我工作的格式的最好方式......

回答

1

我怀疑MatchFirst表达含蓄地跳过在延续线的开头留有空白。尝试做这件事(未经测试):

grammer_body = (grammer_line_full | grammer_line_short).leaveWhitespace() 
+0

谢谢,这工作,另外我的笔记:) – RunDeep

相关问题