我在使用R,'tm'包读取.pdf文件时遇到问题。具体来说,我尝试运行以下代码:
library(tm)
filename = "myfile.pdf"
tmp1 <- readPDF(PdftotextOptions="-layout")
doc <- tmp1(elem=list(uri=filename),language="en",id="id1")
doc[1:15]
这给了我一个错误:
Error in readPDF(PdftotextOptions = "-layout") :
unused argument (PdftotextOptions = "-layout")
我认为这是由于pdftotext程序(xpdf的一部分,http://www.foolabs.com/xpdf/download.html)没有在我的机器上正确安装,因此R无法访问它。
正确安装xpdf/pdfotext以执行上述R代码的步骤是什么(我知道已经发布了类似的问题,但它们没有解决相同的问题)
PdftotextOptions
不是readPDF
的参数。readPDF
有一个control
参数,它需要一个列表。所以正确的用法是:
if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) {
tmp1 <- readPDF(control = list(text = "-layout"))
doc <- tmp1(elem=list(uri=filename),language="en",id="id1")
}
设置
setwd('C:/xpdf/bin64')
它对我有效。