小贝子编程

如何使用Python从手写，扫描的PDF中提取数据

本文关键字：PDF 提取数据扫描 Python 何使用 python ocr python-tesseract handwriting-recognition
更新时间 : 2023-09-13
英文 : How can I extract data from a handwritten, scanned PDF using Python?

，所以我有这些PDF，这些PDF被扫描，其结构化反馈形式。该表格具有这些复选框和手写笔记的空间。我正在尝试从这些PDF中提取数据，并将其保存到非结构化的CSV文件中。现在使用Pytesseract，我可以抓住印刷文本(首先将PDF转换为图像(，但是我无法捕获手写的内容。有没有这样做的？我正在封闭样品表格以供参考。

！https：//i.stack.imgur.com/nonmt.jpg

pytesseract是一个OCR程序。它尚未经过培训或设计以识别手写。因此，您有两个选择：1(对其进行审查(这将是相当耗时且复杂的(2(2(使用另一个库实际上是为了识别笔迹而不是这样的文字：https：//learn.microsoft。com/en-us/azure/cognitive-services/Computer-Vision/QuickStarts/python hand-text

如何使用Python从手写，扫描的PDF中提取数据

相关内容

最新更新

热门标签：