获取tabula-py中表的页码



目前,我正在使用表格从PDF文档中收集表格。

tables = tabula.read_pdf(file,pages='all')

我想知道表格在哪一页。例如,对于表[0],它在第1页,表[1]在第3页,等等。

谢谢!

import tabula
pdf_file = "file_name.pdf"
def extract_tables_from_page(pdf_file, page_number):
tables = tabula.read_pdf(pdf_file, pages=page_number)
if tables:
return True
else:
return False

all_tables_with_page_numbers = [page_number for page_number in range(1, total_pdf_pages + 1) if extract_tables_from_page(pdf_file, page_number)]
print(all_tables_with_page_numbers)

相关内容

  • 没有找到相关文章

最新更新