所以基本上我想在PHP中解析结构CSS代码,使用PEAR包PHP_LexerGenerator和PHP_ParserGenerator生成的词法分析器/解析器。我的目标是像这样解析文件:
selector, selector2 {
prop: value;
prop2 /*comment */ :
value;
subselector {
prop: value;
subsub { prop: value; }
}
}
只要我没有伪类,这一切都很好。伪类允许将:
和CSS名称([a-z][a-z0-9]*
)添加到元素中,就像a.menu:visited
一样。由于有点懒惰,解析器没有有效的伪类列表,并接受类名的所有内容。
我的语法(忽略所有的特殊情况和空格)是这样的:
document ::= (<rule>)*
rule ::= <selector> '{' (<content>)* '}'
content ::= <rule>
content ::= <definition>
definition ::= <name> ':' <name> ';'
// h1 .class.class2#id :visited
<selector> ::= <name> (('.'|'#') <name>)* (':' <name>)?
现在,当我尝试解析下面的
时h1 {
test:visited {
simple: case;
}
}
解析器报错,它期望<name>
跟在双冒号后面。因此,它试图将simple:
读取为<selector>
(只需查看So的语法高亮显示)。
是我的错误,解析器不能回溯足够尝试<definition>
规则?还是柠檬的力量不足以表达这一点?如果是这样,我可以做些什么来让解析器使用这个语法?
您的问题询问了PHP_ParserGenerator和PHP_LexerGenerator。解析器生成器代码被标记为"未维护",这是不好的兆头。
您用于语法的语法对于Lemon来说是不可接受的,因此您需要澄清为什么您认为解析器生成器应该接受它。您提到了一个问题,'期望<name>
跟随双冒号,但您的语法和示例输入都没有双冒号,这使得很难帮助您。
我认为Lemon的语法和你展示的是一样的:
document ::= rule_list.
rule_list ::= .
rule_list ::= rule_list rule.
rule ::= selector LBRACE content_list RBRACE.
content_list ::= .
content_list ::= content_list content.
content ::= rule.
content ::= definition.
definition ::= NAME COLON NAME SEMICOLON.
selector ::= NAME opt_dothashlist opt_colonname.
opt_dothashlist ::= .
opt_dothashlist ::= dot_or_hash NAME.
dot_or_hash ::= DOT.
dot_or_hash ::= HASH.
opt_colonname ::= COLON NAME.
然而,当它被编译时,Lemon报错1 parsing conflicts
,输出文件显示:
State 2:
definition ::= NAME * COLON NAME SEMICOLON
selector ::= NAME * opt_dothashlist opt_colonname
(10) opt_dothashlist ::= *
opt_dothashlist ::= * dot_or_hash NAME
dot_or_hash ::= * DOT
dot_or_hash ::= * HASH
COLON shift 10
COLON reduce 10 ** Parsing conflict **
DOT shift 13
HASH shift 12
opt_dothashlist shift 5
dot_or_hash shift 7
这意味着它不确定如何处理冒号;它可能是'选择器'的'opt_colonname'的一部分,也可能是'定义'的一部分:
name1:name4 : name2:name3 ;
你的意思是允许这样的语法吗?名义上,根据语法,这应该是有效的,但是
name1:name4;
也应该有效。我认为它需要2或3个forward tokens来消除这些歧义(所以你的语法不是LALR(1)而是LALR(3))。