如何将段落格式的标记列表(句子标记化后)转换为编号的句子列表或将其转换为数据帧?

我使用PDFMiner读取了一个pdf文件，并从中提取了文本以进行NLP analysis。由于我将处理研究文章，我通过将文本段落转换为句子标记列表来对文本进行轻度清理。我的目标是选择包含文本引用的句子以供我进一步分析。

例如数据采用以下格式：

['this is my new project' , 'I am very excited about this  (Abbasi, 2015)']

预期产出：

1.This is my new project
2.I am very excited about this (Abbasi, 2015)

是否可以将其转换为数据帧，以便我可以为每个句子添加标签？

还是只提取带有文本引用的句子是明智的？

要区分句子是否包含文本引用，您可以简单地使用正则表达式，如下所示：

i=[] 
for i in sentences:
if re.match(pattern, i):
print("label (1)")
indices.append(i)
else: print("label (0)") or pass

当模式匹配时，将连接句子的索引附加到数组中。最后，将它们转换为 CSV 数据帧。

注意：由于文章提出了不同的引用样式，请检查 RE 规则以自定义您自己的模式。

相关内容