从基于图像的文档中提取表



是否有任何有效的算法/技术可以从基于图像的文档中提取表。我们还有XML形式的Abbyy OCR输出,其中包含文档中文本的坐标信息。我们需要解决两个主要问题:

  1. 识别文档中的表格。(表结构不是固定的。可以有不同的布局,也可以没有边界线(
  2. 正在从表中提取文本
  • 获取文档的xml文件。

  • 开始迭代xml中的行元素。

  • 将内容添加到列表中
  • 将列表转换为DataTable
XmlNodeList xmlList = doc.GetElementsByTagName("page");
foreach(XmlNode xn in XmlList)
{
foreach(XmlNode Xr in xn.ChildNodes)
{
if(Xr.Name ="row")
{
string rowvalue = xr.InnerText;
youlist.Add(rowvalue);
}
}
}

最新更新