在我的工作中有一个案例,我必须从数千个pdf文档中删除一个特定的部分(词汇表(。
我要删除的文本与其他部分的字体不同:示例:"地板";房间的下表面,人们可以在上面行走。"交换";给予一件东西并接受另一件(尤其是相同类型或价值的(作为回报的行为。
你能建议一种更快的方法吗?
解决此问题的一种可能方法是使用regex查找要删除的部分。然后使用python中用于pdf编辑的库之一删除此部分。
在我的工作中有一个案例,我必须从数千个pdf文档中删除一个特定的部分(词汇表(。
我要删除的文本与其他部分的字体不同:示例:"地板";房间的下表面,人们可以在上面行走。"交换";给予一件东西并接受另一件(尤其是相同类型或价值的(作为回报的行为。
你能建议一种更快的方法吗?
解决此问题的一种可能方法是使用regex查找要删除的部分。然后使用python中用于pdf编辑的库之一删除此部分。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium