如何将段落格式的标记列表(句子标记化后)转换为编号的句子列表或将其转换为数据帧?



我使用PDFMiner读取了一个pdf文件,并从中提取了文本以进行NLP analysis。由于我将处理研究文章,我通过将文本段落转换为句子标记列表来对文本进行轻度清理。我的目标是选择包含文本引用的句子以供我进一步分析。

例如 数据采用以下格式:

['this is my new project' , 'I am very excited about this  (Abbasi, 2015)'] 

预期产出:

1.This is my new project
2.I am very excited about this (Abbasi, 2015)

是否可以将其转换为数据帧,以便我可以为每个句子添加标签?

还是只提取带有文本引用的句子是明智的?

要区分句子是否包含文本引用,您可以简单地使用正则表达式,如下所示:

i=[] 
for i in sentences:
if re.match(pattern, i):
print("label (1)")
indices.append(i)
else: print("label (0)") or pass

当模式匹配时,将连接句子的索引附加到数组中。最后,将它们转换为 CSV 数据帧。

注意:由于文章提出了不同的引用样式,请检查 RE 规则以自定义您自己的模式。

相关内容

  • 没有找到相关文章

最新更新