小贝子编程

Python表格，用于没有不同表行的表

最近我尝试使用tabula解析pdf中的一个表，该表的每个字段中都不包含行。

这导致创建一个列表，将所有不同的字段组合为一个(输出示例(。

如何将这个字符串转换为数据帧，以便操作数字？非常感谢

问题中没有给出要测试的伪文件，但如果pdf表的列之间没有分隔线，并且表在从tabula中提取后合并为一列，请尝试使用tabula.read_pdf.中的参数"columns">

根据Tabula文档，此参数的工作方式如下：

columns (list, optional) –
X coordinates of column boundaries.

因此，如果每个PDF的PDF格式都相同，您可以找到要从中分离数据的列的X坐标。为此，您可以使用任何PDF工具，如Adobe，也可以点击并试用。

仍有疑问，请附上伪PDF以便查看。

相关内容