我正在处理一个成绩单数据集,我想使用spacy
库从每个成绩单中提取问题!现在,没有必要每个问题都以"&";。我想不出一个明确的模式来匹配和提取问题!有什么特定的模式可以让我用来寻找问题吗?
假设您只关心直接问题(=疑问句(,则可以运行依赖关系解析器,然后可以识别问题的句法结构。
例如,对于英语,您可以查找:
- 反转:
verb + subject + ...
:- 下雨了吗
- 你喜欢电影吗
- wh问题:
wh-word + verb + ...
澳大利亚在哪里- 你喜欢电影吗
wh-phrase + verb + ...
(,是初始NP的确定器(你喜欢哪首歌
显然,有一些角落的情况:
- 你喜欢谁不关我的事
进入语用学使任务更加困难:
-
您需要确定间接问题:
- 告诉我澳大利亚在哪里
- 我希望我知道澳大利亚在哪里
-
你需要识别事实上不是问题的疑问句:
- 你能打开窗户吗
- 你真的要这么烦人吗
有关更多详细信息,请参阅,例如,Karttunen:问题的语法和语义