,所以我有这些PDF,这些PDF被扫描,其结构化反馈形式。该表格具有这些复选框和手写笔记的空间。我正在尝试从这些PDF中提取数据,并将其保存到非结构化的CSV文件中。现在使用Pytesseract,我可以抓住印刷文本(首先将PDF转换为图像(,但是我无法捕获手写的内容。有没有这样做的?我正在封闭样品表格以供参考。
!https://i.stack.imgur.com/nonmt.jpg
pytesseract是一个OCR程序。它尚未经过培训或设计以识别手写。因此,您有两个选择:1(对其进行审查(这将是相当耗时且复杂的(2(2(使用另一个库实际上是为了识别笔迹而不是这样的文字:https://learn.microsoft。com/en-us/azure/cognitive-services/Computer-Vision/QuickStarts/python hand-text