我正在学习用Flex编写lexer,发现了一个奇怪的问题。我试图定义关键字class的正则表达式。
对于我的测试用例:
class T{
}
表达式1:
ws [trfv ]
CLASS (^class$)|(^class{ws})|({ws}class{ws})|({ws}class$)
不起作用。
表达式2:
ws [trfv ]
CLASS ^class{ws}
工作。
表达式3:
ws [trfv ]
CLASS1 ^class{ws}
CLASS {CLASS1}
报告错误,称无法识别的规则。
我觉得很困惑,2和3之间有什么区别吗?我参考了Flex github上的示例。它只是使用类似的表达式来定义数字。
任何帮助都将不胜感激!
更新:
我的脚本:
%{
/* Some include headers here */
/* The compiler assumes these identifiers. */
#define yylval cool_yylval
#define yylex cool_yylex
/* Max size of string constants */
#define MAX_STR_CONST 1025
#define YY_NO_UNPUT /* keep g++ happy */
extern FILE *fin; /* we read from this file */
/* define YY_INPUT so we read from the FILE fin:
* This change makes it possible to use this scanner in
* the Cool compiler.
*/
#undef YY_INPUT
#define YY_INPUT(buf,result,max_size)
if ( (result = fread( (char*)buf, sizeof(char), max_size, fin)) < 0)
YY_FATAL_ERROR( "read() in flex scanner failed");
char string_buf[MAX_STR_CONST]; /* to assemble string constants */
char *string_buf_ptr;
extern int curr_lineno;
extern int verbose_flag;
extern YYSTYPE cool_yylval;
%}
/*
* Define names for regular expressions here.
*/
ws [trfv ]
CLASS1 {ws}class$
CLASS2 ^class$
CLASS3 ^class{ws}
CLASS4 {ws}class{ws}
CLASS {CLASS2}
DARROW =>
STRING "[^n"]+"
%%
{CLASS} {return (CLASS);} /*returned CLASS is defined in other header files*/
%%
您所做的是不必要的:您可以只使用class
作为正则表达式,而不需要任何锚点或提及空白。您这样定义它可能是因为您希望避免正则表达式与较大标识符的一部分匹配(例如,您不希望classOf99
被解释为关键字class
,后面跟着标识符Of99
(,但这不会发生:当有多个正则表达式可以在当前输入上匹配时,Flex将始终选择导致最长匹配的一个(在平局的情况下,它将选择Flex文件中最先出现的一个(。这被称为最大咀嚼规则,正好避免了这个问题。
因此,您的代码应该只是class { return CLASS; }
,并且不需要任何定义。
也就是说,以下是您的尝试失败的原因:
不能使用^
和$
。有时这会导致"无法识别的规则",有时则会导致无法匹配。
这就解释了为什么你的第一个定义不起作用。但为什么第二个不起作用?如果您在其他定义中使用定义,它们会隐式地封装在括号中,以避免优先级问题。因此,您也不能在其他定义中使用使用^
或$
的定义。
因此,拥有涉及^
和$
的多个备选方案的唯一方法是拥有这样的独立规则:
^re { return X; }
re$ { return X; }
但同样,在你的情况下(或永远(,这真的没有必要。