有没有一种方法可以从R的pdf语料库中计算特定的单词?



如何统计pdf语料库中特定单词的数量?

我尝试使用text_count,但我真的不明白它返回的是什么。

首先,如果需要的话,您需要对pdf进行OCR,然后将其转换为原始文本。pdftools可以帮助转换为文本,但我不确定它是否可以处理多列。

https://cran.r-project.org/web/packages/pdftools/pdftools.pdf

这是另一篇文章:

使用R将PDF文件转换为文本文件进行文本挖掘

如上所述,您可以使用xpdf(通过自制软件安装)来转换pdf,因为我相信它在多列/文本对齐方面有更多的功能。

获得原始文本后,可以使用像tm这样的包来获取语料库中的单词计数。请告诉我这是否有效,或者如果你有进一步的问题。

最新更新