解决 lark 中字符串和数字之间的歧义

我正在为类似 YAML 的序列化格式编写语法。我正在使用 LALR 解析器。我在解析标量时遇到了障碍。标量可以是字符串或数字(让我们保持简单，使其仅小数或浮点数(。这是我到目前为止所拥有的，我只保留了这里相关的内容：

pair: pair_key ":" _value
_value: scalar | collection
scalar : (string | number) _NL+ 
string : WORD+
number : DECIMAL | FLOAT
DECIMAL : /0|[1-9]d*/i
FLOAT: /((d+.d*|.d+)(e[-+]?d+)?|d+(e[-+]?d+))/i
WORD:  /[^-:#()[]{}ns]+/
// NEWLINE
_NL: /(r?n[t ]*)+/
%import common.WS_INLINE
%ignore WS_INLINE

字符串是一个或多个单词。一个 WORD 可以包含任何字符，除了我放在 WORD 正则表达式的否定集中的字符。我希望我的字符串能够包含数字并且仍然被解析为字符串，这就是为什么我的 WORD 否定集中没有数字的原因。问题在于当字符串以这样的数字开头时：

test_strings = """
a : 28 should be parsed as string
b : 28
"""

解析器在开头看到 28 时无法决定是解析数字还是单词。

这是我得到的：

top_map
pair
pair_key
string    a
scalar
string
28
should
be
parsed
as
string
pair
pair_key
string    b
scalar
string    28

预期：

top_map
pair
pair_key
string    a
scalar
string
28
should
be
parsed
as
string
pair
pair_key
string    b
scalar
number    28

我该如何解决这种混乱？有没有办法只使用语法来做到这一点？请注意，我不希望我的字符串被引号或其他符号包围，以便能够识别它们。

编辑

我已经在我的数字规则上使用更高的优先级解决了这个问题：

string : number WORD+ | WORD+
number.2 : DECIMAL | FLOAT
DECIMAL.2 : /0|[1-9]d*/i
FLOAT.2: /((d+.d*|.d+)(e[-+]?d+)?|d+(e[-+]?d+))/i
WORD:  /[^-:#()[]{}ns]+/

这样，数字将被解析为数字而不是 WORD。以数字开头的字符串必须具有后面的 WORD。因此，在此修改版本中，没有字符串只是一个数字。

在我看来，您应该保持语法不变，并在解析完成后将字符串转换为数字(如果有效(。

您仍然可以使用显式number规则，因为它可能会影响解析的上下文，但在这里，歧义是可以在以后解决的，这将是最简单的解决方案。

另一种解决方案，只是为了完整性，是使整个字符串成为单个正则表达式(即它还将包括空格(，并确保在编写时它必须匹配的不仅仅是数字。

像这样：

CHAR: /[^-:#()[]{}n]/
CHAR_ND: /[^-:#()[]{}nd]/
STRING:  CHAR_ND CHAR* | CHAR* CHAR_ND

相关内容

最新更新

热门标签：