报废大型和复杂的PDF表格



出于我自己病态的好奇心,我一直试图从PDF中获取一些关于2020年加州选举结果的数据。

我需要抓取出现在许多页面上的许多表格。在某些情况下,行将继续到下一页,其他列也将出现在其他页上。我包含了一个例子的链接。我对R很满意,但如果Python更适合抓取,我也可以使用它。不过,我还没有找到太多的资源来说明如何处理任何一种语言的附加页面上的表。我需要将这些表格转换成CSV或XLSX格式。

提前谢谢!

在这个例子中,第15-28页应该是一个表格。https://www.co.tehama.ca.us/images/images/Elections/StatementOfVotesCastNOV2020v2excel.pdf

我能够使用以下过程获得整个表。

  1. 在MS Word中打开pdf,而不是Adobe Acrobat。Word将转换文件
  2. 转换完成后,选择全部。(两者均可需要一些时间。(
  3. 粘贴到空白Excel工作表中。保存并享受

最新更新