由于我缺乏这方面的专业知识,我正在努力解决我意识到的一个很难解决的问题。假设我有一个有3行5列的表的图像。每一行都包含文本(假设现在只有英语)或数字(正常的印度-阿拉伯数字)。列之间和每行之间除了空白什么都没有。现在,假设所有行和所有列都对齐,我的任务是获得一种算法来识别并从文档中提取每一行(不知道我是否足够清楚地表达了这一点)。
有人能为我提供一个好的起点吗(图书馆,类似的例子,处理这类事情的教科书章节)等等。
我的背景是数据科学,但我从未接触过计算机视觉。
如有任何帮助,我们将不胜感激。
您应该像Racialz建议的那样,从OpenCV开始。此工具包含Hough lines/Hough transform方法,该方法应该是从表部分查找和裁剪文本的主要且最简单的方法。对于人们使用这种算法的行,有很多不同的任务要找到(比如this或this),但对于你的任务,这会容易得多,因为行应该比这些例子更清晰、更简单。提取后,您将需要扫描文本,为此,我建议您使用tesseractocr引擎。这个引擎是免费的,非常容易使用,它提供了相当不错的结果,并允许您训练它扫描特定类型的字母。