小贝子编程

有没有一种方法可以从R的pdf语料库中计算特定的单词?

如何统计pdf语料库中特定单词的数量?

我尝试使用text_count，但我真的不明白它返回的是什么。

首先，如果需要的话，您需要对pdf进行OCR，然后将其转换为原始文本。pdftools可以帮助转换为文本，但我不确定它是否可以处理多列。

https://cran.r-project.org/web/packages/pdftools/pdftools.pdf

这是另一篇文章:

使用R将PDF文件转换为文本文件进行文本挖掘

如上所述，您可以使用xpdf(通过自制软件安装)来转换pdf，因为我相信它在多列/文本对齐方面有更多的功能。

获得原始文本后，可以使用像tm这样的包来获取语料库中的单词计数。请告诉我这是否有效，或者如果你有进一步的问题。

相关内容