从数千个pdf中删除特定部分(使用python)



在我的工作中有一个案例,我必须从数千个pdf文档中删除一个特定的部分(词汇表(。

我要删除的文本与其他部分的字体不同:示例:"地板";房间的下表面,人们可以在上面行走。"交换";给予一件东西并接受另一件(尤其是相同类型或价值的(作为回报的行为。

你能建议一种更快的方法吗?

解决此问题的一种可能方法是使用regex查找要删除的部分。然后使用python中用于pdf编辑的库之一删除此部分。

最新更新