2016-11-25 50 views
2

我试图解析以下文本格式解析`任何string`:ANTLR4 - 不消耗整个输入

<identifier> { 
    <identifier> : <any-text-without-white-space-or-new-line> : <identifier> 
    <identifier> : <identifier>.<identifier> 
} 

例如:

john { 
    name : JohnJohnson.12.453.643-USA[NewYork] : default 
    reference : something.else 
} 

我已经创建了如下语法:

SPACE   : [ \t\r\n]+ -> skip; 
LEFT_BRACE  : '{'; 
RIGHT_BRACE : '}'; 
COLON   : ':'; 
DOT   : '.'; 
ID    : [a-z]+ 
ANY   : ~(' '|'\t'|'\r'|'\n')+; 

outer   : ID LEFT_BRACE inner_first inner_second RIGHT_BRACE EOF; 
inner_first : ID COLON (ANY | ID) COLON ID; 
inner_second : ID COLON ID DOT ID; 

这个语法的问题是<identifier>.<identifier>在第二行的输入被识别为

ANY 

,而不是作为

ID DOT ID 

我可以解决这个问题,如果我改变的ANY的定义:

ANY   : ~(' '|'\t'|'\r'|'\n'|'.')+; 

但这意味着.符号不能再作为第一行中任意文本的一部分。

这看起来像一个鸡/鸡蛋问题。这是可以解决的吗?

(FWIW,我读了伟大的书The Definitive ANTLR 4 Reference我买前一段时间,但我还没有找到一个解决办法呢。)

回答

0

你总是可以有记号化的最小量的词法规则,并有一定的解析器规则,而不是词法分析规则来表示任何你想要的组合。比方说:

my_desired_seq  : NON_WS_CRLF_DOT_SEQ DOT NON_WS_CRLF_DOT_SEQ ; 
NON_WS_CRLF_DOT_SEQ  : ~(' '|'\t'|'\r'|'\n'|'.')+; 

和语法的另一部分使用的解析器规则,而:

inner_second : ID COLON my_desired_seq;