r语言 - 从PDF - Rstudio中提取文本



使用pdftools库,我只能提取3页的pdf文件,其中有30页。有什么问题吗?如何从所有页面中提取文本?前3页包含正常文本,许多其他页面包含表格栏

您可以通过将pdf转换为图像格式,然后进行OCR部分来做到这一点。更多信息

使用pdftools包中的pdf_convert函数

pngText <- pdftools::pdf_convert('https://jeroen.github.io/images/ocrscan.pdf', dpi = 600)

,

text <- tesseract::ocr(pngText)
cat(text)

让我知道这是否有效。

最新更新