小贝子编程

我正在尝试从目录中的许多pdf中提取关键字和计数

本文关键字：提取 pdf 许多关键字 r
更新时间 : 2023-09-13
英文 : I am trying to extract the keywords and the count from many pdfs in the directory

我创建了一个函数来搜索特定的关键字以及目录中多个pdf的计数。

library(pdfsearch)
library(pdftools)
library(dplyr)
directory <- system.file('pdf','../pdfs', package = 'pdfsearch')
result <- keyword_directory(directory,
                            keyword = c('risk','upside','downside'),
                            surround_lines = 1, full_names = TRUE)
head(result)

代码有效，但它只显示零输出


[1] ID       pdf_name
<0 rows> (or 0-length row.names)

我该如何解决？

不要使用system.file，它只读取文件，你可以使用以下方法，

directory<-"/Users/Documents/Personal/Consultancy 2020/IMF-2020/staff-reports/"
result<-keyword_directory(directory,
                       keyword=c('The staff', "encourages"),
                       full_names=TRUE, remove_hyphen = TRUE, surround_lines=1)

我正在尝试从目录中的许多pdf中提取关键字和计数

相关内容

最新更新

热门标签：