什么更好,一次阅读所有页面或在python camelot中逐页阅读



我每天都会在一个简单的数字海洋实例(1vCPU,1GB ram(上运行camelot,从+-150页的PDF中提取信息并存储在数据库中。这方面的最佳实践是什么:

a( 一次读取所有页面camelot.read_pdf('file.pdf', pages='all', flavor='stream')

b( 逐页阅读?

for page in range(150):
camelot.read_pdf('file.pdf', pages=f'{page}', flavor='stream')

感谢

如果您有所需的内存,但可能没有,您将能够同时读取所有这些。因此,逐页提取数据可能是你认为的"最佳"方法,因为在数据提取后,你会将其替换为下一页,这意味着每次读取新页面时,都会从上一页中释放内存空间。

希望这能有所帮助。:(

最新更新