我正在尝试从目录中的许多pdf中提取关键字和计数

  • 本文关键字:提取 pdf 许多 关键字 r
  • 更新时间 :
  • 英文 :


我创建了一个函数来搜索特定的关键字以及目录中多个pdf的计数。

library(pdfsearch)
library(pdftools)
library(dplyr)
directory <- system.file('pdf','../pdfs', package = 'pdfsearch')
result <- keyword_directory(directory,
                            keyword = c('risk','upside','downside'),
                            surround_lines = 1, full_names = TRUE)
head(result)

代码有效,但它只显示零输出


[1] ID       pdf_name
<0 rows> (or 0-length row.names)

我该如何解决?

不要使用system.file,它只读取文件,你可以使用以下方法,

directory<-"/Users/Documents/Personal/Consultancy 2020/IMF-2020/staff-reports/"
result<-keyword_directory(directory,
                       keyword=c('The staff', "encourages"),
                       full_names=TRUE, remove_hyphen = TRUE, surround_lines=1)

最新更新