如何使用spacy从文本中提取问题



我正在处理一个成绩单数据集,我想使用spacy库从每个成绩单中提取问题!现在,没有必要每个问题都以"&";。我想不出一个明确的模式来匹配和提取问题!有什么特定的模式可以让我用来寻找问题吗?

假设您只关心直接问题(=疑问句(,则可以运行依赖关系解析器,然后可以识别问题的句法结构。

例如,对于英语,您可以查找:

  • 反转:verb + subject + ...
    • 下雨了吗
    • 你喜欢电影吗
  • wh问题:
    • wh-word + verb + ...澳大利亚在哪里
    • 你喜欢电影吗
  • wh-phrase + verb + ...(是初始NP的确定器(你喜欢哪首歌

显然,有一些角落的情况:

  • 你喜欢谁不关我的事

进入语用学使任务更加困难:

  1. 您需要确定间接问题:

    • 告诉我澳大利亚在哪里
    • 我希望我知道澳大利亚在哪里
  2. 你需要识别事实上不是问题的疑问句:

    • 你能打开窗户吗
    • 你真的要这么烦人吗

有关更多详细信息,请参阅,例如,Karttunen:问题的语法和语义

最新更新