如何统计pdf语料库中特定单词的数量?
我尝试使用text_count,但我真的不明白它返回的是什么。
首先,如果需要的话,您需要对pdf进行OCR,然后将其转换为原始文本。pdftools
可以帮助转换为文本,但我不确定它是否可以处理多列。
https://cran.r-project.org/web/packages/pdftools/pdftools.pdf
这是另一篇文章:
使用R将PDF文件转换为文本文件进行文本挖掘
如上所述,您可以使用xpdf(通过自制软件安装)来转换pdf,因为我相信它在多列/文本对齐方面有更多的功能。
获得原始文本后,可以使用像tm
这样的包来获取语料库中的单词计数。请告诉我这是否有效,或者如果你有进一步的问题。