Python表格,用于没有不同表行的表



最近我尝试使用tabula解析pdf中的一个表,该表的每个字段中都不包含行。

这导致创建一个列表,将所有不同的字段组合为一个(输出示例(。

如何将这个字符串转换为数据帧,以便操作数字?非常感谢

问题中没有给出要测试的伪文件,但如果pdf表的列之间没有分隔线,并且表在从tabula中提取后合并为一列,请尝试使用tabula.read_pdf.中的参数"columns">

根据Tabula文档,此参数的工作方式如下:

columns (list, optional) –
X coordinates of column boundaries.

因此,如果每个PDF的PDF格式都相同,您可以找到要从中分离数据的列的X坐标。为此,您可以使用任何PDF工具,如Adobe,也可以点击并试用。

仍有疑问,请附上伪PDF以便查看。

相关内容

  • 没有找到相关文章

最新更新