Antlr4 不匹配的输入"<"期望"<",(似乎)没有词法分析器歧义



我似乎弄不明白antlr在这个语法中做什么。我有一个语法应该匹配这样的输入:

i,j : bool;
setvar : set<bool>;
i > 5;
j < 10;

但是我一直得到一个错误告诉我';行3:13不匹配输入'<'期待'<'"。这告诉我词法分析器中有一些歧义,但我只在单个标记中使用了'<'。

语法如下:

//// Parser Rules
grammar MLTL1;
start: block*;
block: var_list ';'
| expr ';'
;
var_list: IDENTIFIER (',' IDENTIFIER)* ':' type ;
type: BASE_TYPE
| KW_SET REL_LT BASE_TYPE REL_GT
;
expr: expr REL_OP expr
| '(' expr ')'
| IDENTIFIER 
| INT
;
//// Lexical Spec
// Types
BASE_TYPE: 'bool'
| 'int'
| 'float'
;
// Keywords
KW_SET: 'set' ;
// Op groups for precedence
REL_OP: REL_EQ | REL_NEQ | REL_GT | REL_LT
| REL_GTE | REL_LTE  ;
// Relational ops
REL_EQ: '==' ;
REL_NEQ: '!=' ;
REL_GT: '>' ;
REL_LT: '<' ;
REL_GTE: '>=' ;
REL_LTE: '<=' ; 
IDENTIFIER
: LETTER (LETTER | DIGIT)*
;
INT
: SIGN? NONZERODIGIT DIGIT*
| '0'
;
fragment
SIGN
: [+-]
;
fragment
DIGIT
:  [0-9]
;
fragment
NONZERODIGIT
: [1-9]
;
fragment
LETTER
: [a-zA-Z_]
;
COMMENT : '#' ~[rn]* -> skip;
WS  :  [ trn]+ -> channel(HIDDEN);

我测试了语法,看看它为上面的测试输入生成了什么标记:

from antlr4 import InputStream, CommonTokenStream
import MLTL1Lexer
import MLTL1Parser
input="""
i,j : bool;
setvar: set<bool>;
i > 5;
j < 10;
"""
lexer = MLTL1Lexer.MLTL1Lexer(InputStream(input))
stream = CommonTokenStream(lexer)
stream.fill()
tokens = stream.getTokens(0,100)
for t in tokens:
print(str(t.type) + " " + t.text)
parser = MLTL1Parser.MLTL1Parser(stream)
parse_tree = parser.start()
print(parse_tree.toStringTree(recog=parser))

并注意到'>'和'<'被分配了相同的令牌值,尽管它们是两个不同的令牌。我遗漏了什么吗?

(可能不止这两个实例,但是…)

REL_OPBASE_TYPE更改为解析器规则(即使它们小写)

当您使用它们时,您正在将许多预期的Lexer规则有效地转换为fragment规则。

理解符号是"原子"并不重要。当您将其中的几个组合成另一个Lexer规则时,您只需将其设置为标记类型。

(如果您使用grun来转储令牌,您将看到它们被标识为REL_OP令牌。

通过下面的更改,您的示例输入工作得很好。

grammar MLTL1
;
start: block*;
block: var_list ';' | expr ';';
var_list: IDENTIFIER (',' IDENTIFIER)* ':' type;
type: baseType | KW_SET REL_LT baseType REL_GT;
expr: expr rel_op expr | '(' expr ')' | IDENTIFIER | INT;
//// Lexical Spec
// Types
baseType: 'bool' | 'int' | 'float';
// Keywords
KW_SET: 'set';
// Op groups for precedence
rel_op: REL_EQ | REL_NEQ | REL_GT | REL_LT | REL_GTE | REL_LTE;
// Relational ops
REL_EQ:  '==';
REL_NEQ: '!=';
REL_GT:  '>';
REL_LT:  '<';
REL_GTE: '>=';
REL_LTE: '<=';
IDENTIFIER: LETTER (LETTER | DIGIT)*;
INT: SIGN? NONZERODIGIT DIGIT* | '0';
fragment SIGN: [+-];
fragment DIGIT: [0-9];
fragment NONZERODIGIT: [1-9];
fragment LETTER: [a-zA-Z_];
COMMENT: '#' ~[rn]* -> skip;
WS:      [ trn]+   -> channel(HIDDEN);

最新更新