最近我尝试使用tabula解析pdf中的一个表,该表的每个字段中都不包含行。
这导致创建一个列表,将所有不同的字段组合为一个(输出示例(。
如何将这个字符串转换为数据帧,以便操作数字?非常感谢
问题中没有给出要测试的伪文件,但如果pdf表的列之间没有分隔线,并且表在从tabula中提取后合并为一列,请尝试使用tabula.read_pdf.中的参数"columns">
根据Tabula文档,此参数的工作方式如下:
columns (list, optional) –
X coordinates of column boundaries.
因此,如果每个PDF的PDF格式都相同,您可以找到要从中分离数据的列的X坐标。为此,您可以使用任何PDF工具,如Adobe,也可以点击并试用。
仍有疑问,请附上伪PDF以便查看。