从斯坦福选区解析树中提取名词短语"String"



如何从选区解析树中提取没有POS tags的名词短语String / Text

我可以在不解析注释的情况下提取名词短语,但无法找到只提取该名词短语文本的方法。例如:

String some_sentence = "The dog ran after the intruding bigger dog";
parse Tree :**(ROOT (S (NP (DT The) (NN dog)) (VP (VBD ran) (PP (IN after) (NP (DT the) (JJ intruding) (JJR bigger) (NN dog))))))

我可以从这个解析树(NP (DT The) (NN dog))" and "(NP (DT the) (JJ intruding)中提取以下名词短语,但我只需要这些名词短语的文本作为狗"one_answers"入侵

我曾尝试使用Tree类的yieldWords()方法来构造短语,但它不能保证源字符串的准确再现,因为可能存在空格、符号等问题。

有没有一种方法可以从解析树中获得确切的源字符串??

你走在了正确的轨道上。一旦使用Tree.yieldWords提取了一个屈服词列表,就可以使用Sentence.listToOriginalTextString生成原始句子子串。

我相信这种方法在CoreNLP 3.5.2中是新的,所以请确保安装了最新版本。

最新更新