有人知道python/ruby中有一个库可以分析图像并提取其中的文本吗?
或者一本关于图像处理等的书。。。
附言:文本是各种字体和格式,但清晰,Tl;博士:没有captcha或类似的。
您可以使用OpenCV,这是一个开源计算机视觉库,它具有Python API。如今,它被认为是一个行业标准的图书馆。
OpenCV官方网站:http://opencv.org/
如果您需要一些关于OpenCV Python的教程,请访问:opencvpython.blogspot.com
您也可以在OpenCV Python 中检查SOF:简单数字识别OCR
除此之外,OpenCV示例还实现了一些OCR。
但我建议您使用Tesseract进行OCR。它是最好的开源OCR引擎,由惠普开发,但现在由谷歌处理。
Tesseract网站:https://github.com/tesseract-ocr/tesseract
tesseract的Python API,Pytesser:https://github.com/RobinDavid/Pytesser
还要检查这个SOF:我如何在Tesseract和OpenCV之间进行选择?
因此,您可以使用OpenCV对图像进行预处理,并使用Tesseract进行OCR。