小贝子编程

从基于图像的文档中提取表

本文关键字：文档提取图像于图像 image ocr document boundary abbyy
更新时间 : 2023-09-18
英文 : Table extraction from image based documents

是否有任何有效的算法/技术可以从基于图像的文档中提取表。我们还有XML形式的Abbyy OCR输出，其中包含文档中文本的坐标信息。我们需要解决两个主要问题：

识别文档中的表格。(表结构不是固定的。可以有不同的布局，也可以没有边界线(
正在从表中提取文本

获取文档的xml文件。
开始迭代xml中的行元素。
将内容添加到列表中
将列表转换为DataTable

XmlNodeList xmlList = doc.GetElementsByTagName("page");
foreach(XmlNode xn in XmlList)
{
foreach(XmlNode Xr in xn.ChildNodes)
{
if(Xr.Name ="row")
{
string rowvalue = xr.InnerText;
youlist.Add(rowvalue);
}
}
}

最新更新

运行我的 CI 时没有这样的模块"AWSCore"，在本地很好
APPSCRIPT从Gmail中检索带有电子邮件地址的上次交互日期
Arduino cmake build system without IDE
使用.Split拆分字符串并返回第一个整数值
Docker挂载的卷文件属于nobody:nobody(失去所有者)
气流操作器从URL下载文件并保存到磁盘
我试图在提交表单之前添加一个选中的属性，并使用laravel刀片模板单击无线电粘性
Love2D 错误：main.lua：38：尝试调用方法 'getHeight'(一个 nil 值)
使用稀疏矩阵与jax
对于大一点的孩子(9岁以上的孩子)，我需要什么样的iOS家长门?
Understanding std::vector::push_back(std::move(v[i]))
你能找到解决这个问题的方法吗?
在使用相同group_id的kafka消费者中使用assign而不是subscribe是否有影响? &
让谷歌的见解清楚地表明，我的网站上有不止一个页面
我无法在反应中删除 html 标签
获取/读取邮件消息并输出纯文本
显示:表格单元格与行号不对齐
如何使用Toga应用访问Android通知
访问create_template_view api时出现INVALID_REQUEST_BODY错误
使用预处理器条件生成C/ c++变量名
此处映射计算路线API上的错误414
Oracle数据库中的并行提示
woocommerce在每个类别结帐后自定义重定向
是否有可能在AWS中设置一个webhook来监控特定的电子邮件地址，并将接收到的电子邮件信息传递给Lambda?<
仅使用numpy实现CNN时出错
过程展开不规则时间序列
插入多个带别名的外键
如何从API响应中提取Array
WebLogic 14c -性能调优测试
Google-Drive-API文件没有使用FORM_ID找到

从基于图像的文档中提取表

相关内容

最新更新

热门标签：