PLY解决简单句子解析器的歧义

我遇到了一个问题，我需要将非常简单的句子解析为 BNF 解析。我能够轻松地标记令牌并有简单的句子工作。但是，在几种情况下，可以应用减少规则，或者可能发生偏移，而可能会发生另一个减少。例如：

杰瑞德追着汤姆，杰瑞吃了。

我有一个规则将名词连词简化为名词短语，另一个规则将句子连词简化为复合句。在"Jerry"中，它似乎自动假设句子是形式名词动词名词短语，而不是句子连接句子，并在遇到"ate"时抛出错误，因为 NP VP NP VP 没有重写规则。

我如何更改它，以便如果连词右侧的单词是一个句子，它会将其解析为 S CONJ S，但如果不是，则将其解析为 NP VP NP？

编辑：为了澄清，这是我当前的代码：

import ply.yacc as yacc
from lexer import tokens
precedence = (('left', 'Vi'),('left', 'N'))
def p_S(p):
"""S : NP VP"""
p[0] = '[S ' + p[1] + ' ' + p[2] + ' ]'
def p_VP(p):
"""VP : VP Conj VP"""
p[0] = '[VP ' + p[1] + ' ' + p[2] + ' ' + p[3] + ' ]'
def p_Vi(p):
"""VP : Vi"""
p[0] = '[VP [VI ' + p[1] + ' ] ]'
def p_Vt(p):
"""VP : Vt NP"""
p[0] = '[VP [Vt ' + p[1] + ' ] ' + p[2] + ' ]'
def p_Vd(p):
"""VP : Vd NP NP"""
p[0] = '[VP [VT ' + p[1] + ' ] ' + p[2] + ' ' + p[3] + ' ]'
def p_NP(p):
"""NP : NP Conj NP
| N"""
if len(p) == 4:
p[0] = '[NP ' + p[1] + ' [Conj ' + p[2] + ' ] ' + p[3] + ' ]'
else:
p[0] = '[N ' + p[1] + ' ]'
def p_error(p):
print("Syntax Error in input!n")
parser = yacc.yacc()
while True:
try:
s = input('calc > ')
if not s: continue
result = parser.parse(s)
if result is not None: print(result + 'n')
except EOFError:
print("Please try again")

你不能，至少不能使用确定性的单令牌前瞻解析器，这是Ply构建的。

幸运的是(或不幸运地)，人类的大脑并不局限于克努提安从左到右的解析，尽管我们如何解析句子的细节并不完全清楚。更重要的是，大多数人类语言实际上是模棱两可的，只有语义分析才能区分多个可能的解析。(在口语中，还有许多其他语言功能，例如语调、词间间距和重音，这也有助于指导解析。这些特征通常不会用书面语言转录，但书面语言可以非线性处理;如有必要，眼睛可以重新阅读或向前扫描。

对于人类语言解析，GLR 或类似的算法将被证明更有用。虽然Bison可以产生GLR解析器，但据我所知，该功能尚未在Ply中体现。图表解析不是特别复杂;您可能无需太多工作即可编写自己的代码。但是，除非您对解析算法感兴趣，否则没有多大意义，因为 Python 中已有用于人类语言处理的包。

(SO不鼓励库推荐，但我相信NLTK，自然语言工具包，可能是人类语言处理中使用最广泛的Python框架。

相关内容

最新更新

热门标签：