更新了更多信息
我遇到问题,可以用柠檬解析简单的元素。有人可以启发我吗?
我试图解析此字符串" [0 0 612 792] [100 200]",使用myGrammar定义,而解析器总是跳过第一个数组元素,并复制最后一个...任何想法?
语法文件是
%token_type { char* }
%include {
#include <assert.h>
}
%parse_accept { printf("The parser has completed successfully.n"); }
%syntax_error { fprintf(stderr, "Syntax Errorn"); }
%parse_failure { fprintf(stderr, "Parse failuren"); }
%start_symbol program
array_value ::= INT_LITERAL(A). {printf("Av: %sn", A);}
array_value_list ::=.
array_value_list ::= array_value_list array_value.
array_declaration ::= LBRACKET array_value_list RBRACKET.
array_list ::= array_declaration.
array_list ::= array_list array_declaration.
program ::= array_list END_TOKEN.
我使用re2c获取令牌和调用每个令牌解析器的代码
while(token = scan(&scanner, buff_end)) {
// Send strings to the parser with NAME tokens
if(token == INT_LITERAL) {
name_length = scanner.cur - scanner.top;
strncpy(name_str, scanner.top, name_length);
name_str[name_length] = ' ';
//printf("Token:Pre: %stName: %sn", tokenStr(token),name_str);
Parse(parser, token, name_str);
}
else {
//printf("Token: %sn", tokenStr(token));
Parse(parser, token, 0);
}
// Execute Parse for the last time
if(token == END_TOKEN) {
Parse(parser, 0, NULL);
break;
}
}
对于输入字符串" [0 -100 612 792] [100 200]"输出为:
Av: -100
Av: 612
Av: 792
Av: 792
Av: 200
Av: 200
您会注意到,第一个元素不会出现,最后一个元素被复制。
柠檬的语法是:
State 0:
array_declaration ::= * LBRACKET array_value_list RBRACKET
array_list ::= * array_declaration
array_list ::= * array_list array_declaration
program ::= * array_list END_TOKEN
LBRACKET shift 3
array_declaration shift 1 /* because array_declaration==array_list */
array_list shift 1
program accept
State 1:
array_declaration ::= * LBRACKET array_value_list RBRACKET
array_list ::= array_list * array_declaration
program ::= array_list * END_TOKEN
LBRACKET shift 3
END_TOKEN shift 4
array_declaration shift-reduce 5 array_list ::= array_list array_declaration
State 2:
array_value ::= * INT_LITERAL
array_value_list ::= array_value_list * array_value
array_declaration ::= LBRACKET array_value_list * RBRACKET
INT_LITERAL shift-reduce 0 array_value ::= INT_LITERAL
RBRACKET shift-reduce 3 array_declaration ::= LBRACKET array_value_list RBRACKET
array_value shift-reduce 2 array_value_list ::= array_value_list array_value
State 3:
(1) array_value_list ::= *
array_value_list ::= * array_value_list array_value
array_declaration ::= LBRACKET * array_value_list RBRACKET
array_value_list shift 2
{default} reduce 1 array_value_list ::=
State 4:
(6) program ::= array_list END_TOKEN *
$ reduce 6 program ::= array_list END_TOKEN
----------------------------------------------------
Symbols:
0: $:
1: INT_LITERAL
2: LBRACKET
3: RBRACKET
4: END_TOKEN
5: error:
6: array_value: INT_LITERAL
7: array_value_list: <lambda> INT_LITERAL
8: array_declaration: LBRACKET
9: array_list: LBRACKET
10: program: LBRACKET
和样本字符串的输出跟踪为:
T__Input 'LBRACKET'
T__Shift 'LBRACKET', go to state 3
T__Return. Stack=[LBRACKET]
T__Input 'INT_LITERAL'
T__Reduce [array_value_list ::=], go to state 3.
T__Shift 'array_value_list', go to state 2
T__Shift 'INT_LITERAL'
T__Return. Stack=[LBRACKET array_value_list INT_LITERAL]
T__Input 'INT_LITERAL'
T__Reduce [array_value ::= INT_LITERAL], go to state 2.
T__Shift 'array_value'
T__Reduce [array_value_list ::= array_value_list array_value], go to state 3.
T__Shift 'array_value_list', go to state 2
T__Shift 'INT_LITERAL'
T__Return. Stack=[LBRACKET array_value_list INT_LITERAL]
T__Input 'INT_LITERAL'
T__Reduce [array_value ::= INT_LITERAL], go to state 2.
T__Shift 'array_value'
T__Reduce [array_value_list ::= array_value_list array_value], go to state 3.
T__Shift 'array_value_list', go to state 2
T__Shift 'INT_LITERAL'
T__Return. Stack=[LBRACKET array_value_list INT_LITERAL]
T__Input 'INT_LITERAL'
T__Reduce [array_value ::= INT_LITERAL], go to state 2.
T__Shift 'array_value'
T__Reduce [array_value_list ::= array_value_list array_value], go to state 3.
T__Shift 'array_value_list', go to state 2
T__Shift 'INT_LITERAL'
T__Return. Stack=[LBRACKET array_value_list INT_LITERAL]
T__Input 'RBRACKET'
T__Reduce [array_value ::= INT_LITERAL], go to state 2.
T__Shift 'array_value'
T__Reduce [array_value_list ::= array_value_list array_value], go to state 3.
T__Shift 'array_value_list', go to state 2
T__Shift 'RBRACKET'
T__Return. Stack=[LBRACKET array_value_list RBRACKET]
T__Input 'LBRACKET'
T__Reduce [array_declaration ::= LBRACKET array_value_list RBRACKET], go to state 0.
T__Shift 'array_declaration', go to state 1
T__Shift 'LBRACKET', go to state 3
T__Return. Stack=[array_declaration LBRACKET]
T__Input 'INT_LITERAL'
T__Reduce [array_value_list ::=], go to state 3.
T__Shift 'array_value_list', go to state 2
T__Shift 'INT_LITERAL'
T__Return. Stack=[array_declaration LBRACKET array_value_list INT_LITERAL]
T__Input 'INT_LITERAL'
T__Reduce [array_value ::= INT_LITERAL], go to state 2.
T__Shift 'array_value'
T__Reduce [array_value_list ::= array_value_list array_value], go to state 3.
T__Shift 'array_value_list', go to state 2
T__Shift 'INT_LITERAL'
T__Return. Stack=[array_declaration LBRACKET array_value_list INT_LITERAL]
T__Input 'RBRACKET'
T__Reduce [array_value ::= INT_LITERAL], go to state 2.
T__Shift 'array_value'
T__Reduce [array_value_list ::= array_value_list array_value], go to state 3.
T__Shift 'array_value_list', go to state 2
T__Shift 'RBRACKET'
T__Return. Stack=[array_declaration LBRACKET array_value_list RBRACKET]
T__Input 'END_TOKEN'
T__Reduce [array_declaration ::= LBRACKET array_value_list RBRACKET], go to state 1.
T__Shift 'array_declaration'
T__Reduce [array_list ::= array_list array_declaration], go to state 0.
T__Shift 'array_list', go to state 1
T__Shift 'END_TOKEN', go to state 4
T__Return. Stack=[array_list END_TOKEN]
T__Input '$'
T__Reduce [program ::= array_list END_TOKEN], go to state 0.
T__Accept!
T__Return. Stack=]
我遇到了这个错误,我很确定这是我不理解的概念错误。任何帮助都将不胜感激。
谢谢
您在扫描仪代码中不显示name_str
的定义,但似乎是char
的数组。如果是这种情况,您可能会冒出缓冲区超支,因为您永远不会检查以确保name_length
小于缓冲区的大小;此外,您不妨使用memcpy
而不是strncpy
,因为您已经知道您的复制字符串中没有NEUL字符。但是这些事情实际上都不是问题:问题是您将每个令牌复制到相同的缓冲区中。
您传递给解析器的是nul终止字符串的地址。解析器不会复制字符串;它只是将地址作为令牌的语义价值存储。换句话说,解析器假定它拥有 传递在令牌字符串中,至少直到解析完成为止。
实际上,字符缓冲区(name_str
)由扫描仪拥有,一旦将令牌推入解析器,它假设它可以自由地使用字符缓冲区来做。这是为了用下一个令牌覆盖缓冲区。
与野牛不同,当Lookahead没关系时,柠檬不会立即减少。一看到字面意思,野牛会将INT_LITERAL
减少到array_value
,因为减少不取决于LookAhead。但是Lemon总是具有lookahead代币,因此它不会将INT_LITERAL
降低到array_value
,直到它收到了下一个令牌为止。不幸的是,如果下一个令牌也是INT_LITERAL
,那么下一个令牌将在减少之前覆盖字符缓冲区,因此减少的动作将在Next Next 令牌中打印出字符串。如果下一个令牌是] ,则角色缓冲区不会被扫描仪覆盖,因此在这种情况下,将打印当前令牌,尽管它已经由以前的令牌减少了。<<<<<<<<<<<<<<<<<<<<<<<<<<
通常,扫描仪无法知道解析器需要多长时间的令牌值。对于这个问题环境,只有两个明智的所有权政策:
- 扫描仪保留所有权。解析器如果需要保留价值,则必须制作副本。
- 扫描仪将所有权传递给解析器,然后在使用它后必须明确释放令牌。
第一个策略更清洁,因为它不需要两个组件就资源管理协议达成协议。但是解析器生成器不太可能包括任何允许实施该策略的机制,因为它需要在解析器功能的顶部采取某些措施。
因此,您需要使用第二个策略;扫描仪必须在新分配的内存中制作令牌字符串的副本,并将此内存及其所有权传递给解析器,以便解析器必须(最终)释放副本。这是大多数功能性野牛解析器使用的协议,出于相同的原因,当不制作副本时随之而来的各种错误可能是最常见的晦涩的野牛错误。
当然,在这种简单的情况下,您可以通过让扫描仪将字符串转换为整数来避免内存管理问题。
没有从您提供的解析器定义中生成柠檬解析器。它允许递归列表array_value_list
的终端元素array_value
为空。解析器可以减少此规则不定次的次数并报告解析冲突。
是解决冲突,切换到空列表规则的概念而不是空元素的概念。这是柠檬文档列表的推荐左记录定义:
list ::= .
list ::= list element.
将此模式应用于您的解析器,给出了下一个结果:
array_value ::= INT_LITERAL(A). {printf("Array value: %sn", A);}
array_value_list ::= .
array_value_list ::= array_value_list array_value.
init_array ::=. {printf("Init Arrayn");}
end_array ::=. {printf("End Arrayn");}
array_declaration ::= init_array LBRACKET array_value_list RBRACKET end_array.
array_list ::= array_declaration.
array_list ::= array_list array_declaration.
program ::= array_list END_TOKEN.