假设我需要描述语言的简单语法,例如
foo 2
bar 21
但不是
foo1
使用 jflex 我写了 smt 喜欢
WORD=[a-zA-Z]+
NUMBER=[0-9]+
WHITE_SPACE_CHAR=[ nrtf]
%state AFTER_WORD
%state AFTER_WORD_SEPARATOR
%%
<YYINITIAL>{WORD} { yybegin(AFTER_WORD); return TokenType.WORD; }
<AFTER_WORD>{WHITE_SPACE_CHAR}+ { yybegin(AFTER_WORD_SEPARATOR); return TokenType.WHITE_SPACE; }
<AFTER_WORD_SEPARATOR>{NUMBER} { yybegin(YYINITIAL); return TokenType.NUMBER; }
{WHITE_SPACE_CHAR}+ { return TokenType.WHITE_SPACE; }
但我不喜欢用于说单词和数字之间应该有空格的额外状态。如何简化语法?
解析时根本不需要空格标记。
摆脱TokenType.WHITE_SPACE
,当你在词法分析器中获得空格时,只需忽略它而不是返回任何内容。
为了防止'foo1'
,为[A-Za-z0-9]
添加另一个规则,并为它添加另一个未出现在语法中的标记类型;然后这是一个语法错误。
根据我对 JFlex 的了解,如果您直接识别空格(似乎是这种情况),则不必使用额外的状态。只需为"标识符"制定一个规则,为"数字"制定另一个规则。
%%
{WORD} { return TokenType.WORD; }
{NUMBER} { return TokenType.NUMBER; }
如果你的语言强加每一行只包含一个标识符、一个空格和一个数字,这应该通过句法分析(即通过解析器)而不是词汇分析来检查。