使用pdftools库,我只能提取3页的pdf文件,其中有30页。有什么问题吗?如何从所有页面中提取文本?前3页包含正常文本,许多其他页面包含表格栏
您可以通过将pdf转换为图像格式,然后进行OCR部分来做到这一点。更多信息
使用pdftools
包中的pdf_convert
函数
pngText <- pdftools::pdf_convert('https://jeroen.github.io/images/ocrscan.pdf', dpi = 600)
,
text <- tesseract::ocr(pngText)
cat(text)
让我知道这是否有效。