如何使用文档短语在空间中分割并提取特定的单词



我有5个短语。例如:

phrase(Text:'bla bla bla') | phrase(Text:'bla bla bla')|

我需要得到文本标签之后的内容-在这种情况下是&;bla bla&;。所以我想使用分割,但没有readline这是不可能的。那么如何提取它呢?目前我得到空的5个列表。

我想要一行"bla bla bla| bla bla bla "。

en_nlp = spacy.load("en_core_web_sm")
en_nlp.add_pipe("textrank", config={ "stopwords": { "word": ["NOUN"] } })
doc = en_nlp(text)
tr = doc._.textrank
for phrase in doc._.phrases[:5]:
print(phrase, end=" | ")
for phrase in doc._.phrases[:5]:    
print(re.findall(r'Phrase(Text:([^()]+))', text)) 

显然,我只需要在循环中使用phrase.text,现在它工作了。

print(phrase.text, end=" | ")

最新更新