ANTLR4:消耗所有剩余输入直到EOF



在此处使用ANTLR 4.3版。

此语法接受各种以EOF分隔的表达式,每次一个。这些表达式以key开头,此后在语法上有所不同。接受字符串示例:

"cycle in freerun" <EOF>
"runtime <= 20m" <EOF>
"grab enabled" <EOF>

ANTLR愉快地将所有表达式解析为组件,监听器对相关组件进行操作,生活是幸福的。下面是一个有代表性的语法片段:

expr               // <-- Start rule
  : freq_p EOF
  | cycle_p EOF
  ...              // Many more, ad nauseum
  ;
freq_p  : FREQ '=' INT | FREQ '<' INT ;
cycle_p : CYCLE IN cycles ;
cycles  : cycle (',' cycle)* ;
cycle   : PHASELOCK | FREERUN ;
// Keywords
CYCLE     : 'cycle' ;
FREERUN   : 'freerun' ;
FREQ      : 'frequency' ;
IN        : 'in' ;
PHASELOCK : 'phaselock' ;
INT       : '0'..'9'+ ;
WS        : [ ntr]+ -> skip ;

但现在,我需要扩展语法以包含两个新的表达式,这两个表达式都以接受任何字符序列(包括Unicode)到EOF结束。样本输入:

"echo = Confirm 'interlock' is clear,n and actuate "frequency" button." <EOF>
"report Process complete." <EOF>

我很难在语法中表达对EOF的所有输入的接受。以下变化导致痛苦:

expr
  ...
  : echo_p EOF
  : report_p EOF
  ...
echo_p   : ECHO   '=' REMAINING ; // Snarfs all remaining input until EOF
report_p : REPORT     REMAINING ; // Ditto
ECHO     : 'echo' ;
REPORT   : 'report' ;
REMAINING : <WHAT_GOES_HERE?> ;  // .* messes up everything else

如何才能做到这一点?期望的结果是解析树监听器将获得文本值,例如REMAINING().getText()

废弃的方法:Lexer语法利用模式()

我试着把REMAINING写成一个单独的lexer grammarimport,但遇到了https://github.com/antlr/antlr4/issues/160以及编译时间警告。IntelliJ ANTLR插件也会出现故障,这会对生产力产生负面影响。我了解到,至少在ANTLR4.3中,包含使用模式的lexer语法是不受支持的。

lexer grammar Remainder;
@lexer::members {
// Needed at least until ANTLR issue #160 is fixed.
public static final int CONSUME_ALL = 123;
}
REMAINING : . -> more, mode(CONSUME_ALL) ;
mode CONSUME_ALL;
TEXT : .* ; // Consume all remaining input

您应该将?添加到.*中,使其成为非自由的:

REMAINING : .*? ;

这将消耗所有东西,直到找到EOF

看看这里:https://theantlrguy.atlassian.net/wiki/display/ANTLR4/Wildcard+运算符+和+非自由+子规则

相关内容

  • 没有找到相关文章

最新更新