小贝子编程

如何解析非英语语言的PDF表格

本文关键字：PDF 表格语言英语何解析 python-3.x parsing pdf python-camelot
更新时间 : 2023-09-21
英文 : How to parse table in PDF for non-english language

我使用Camelot和tabula来解析一个包含西里尔字母符号的pdf文件。但在输出的CSV文件中，我得到了一个没有俄语符号的混乱字体。

什么可以帮助我用非英语语言解析pdf表格？

import camelot
file = 'file-name.pdf'
tables = camelot.read_pdf(file, pages = "1-end", encoding='utf-8')

输出：00550529-1295-06-РўРР5。Р

所以，基本上，Camelot在西里尔字母方面做得很好。

pip install camelot-py[cv]
import pandas as pd
import camelot
file = 'file-name.pdf'
tables = camelot.read_pdf(file, pages = "4, 5", encoding='utf-8')
df_p4 = tables[0].df

输出将非常原始，需要清理，但符号不会被破坏，我认为这是一个好结果。

最新更新

launchWebAuthFlow窗口在chrome扩展关闭后保持打开
使用非初始结构变量作为参数调用函数不会产生警告
Pytorch - mat1和mat2形状不能相乘(3328x13和9216x4096)
我如何得到一个节点超时的内部id使用符号没有硬编码查找索引?
spring引导应用程序读取另一个jar的应用程序配置值吗?
如何在main.js中导入javascript库以在整个vue应用程序中获得全局可用性?
使段落出现，并使其在点击显示下一个段落时消失
GROUP_CONCAT(DISTINCT xxx)将连接值的顺序颠倒
r语言 - 循环遍历列表的列表
如何使用Pandas数据框架将R代码语法转换为Python语法?
当我运行服务器我得到这个错误:Django 405错误
如何将列表中的每个数字与另一个列表中的每个数字相乘
用其他字典中的值替换字典中值列表中的元素
super() 不能递增父类的类变量，但它会更新父类的类字典
Java中的冗余赋值vs赋值前检查
输入数据量变化;需要的建议
根据键合并两个数组，并使用mongo聚合添加新字段
显示头表，从数组的子列- Angular
如何上传AppendBlob/一个大于4mb限制的文件到Azure存储/Blob在Java?
client_loop: send disconnect:长时间运行jenkins管道时管道破裂问题
使用 python 跟踪游戏不断更新的日志文件的最佳方法是什么？
Gsutil 错误"Caught socket error, retrying: timed out "
如何在<h3>相同的高度制作
#address 单元的 DTC 编译错误 = <2> 大小写
遵循Flutter web的重定向url
从数据库中获取值作为表
我们可以通过在一个应用程序中拥有更多(比用户机器上其他运行的应用程序)线程/进程来窃取更多的CPU时间/资源吗?<
如何在vue js中基于数组唯一id的选择选项中显示数据
React中的 useRef语法
如何在react native图像滑动框中更改图像大小

如何解析非英语语言的PDF表格

相关内容

最新更新

热门标签：