如何从R中的帮助页面获取文本数据



在全球范围内,我感兴趣的是从R文档中获取所有文本数据,将它们放在数据框架中,并应用文本挖掘技术。

  1. PACKAGE LEVEL:假设我对一个包感兴趣,例如"utils",并且我想获得矢量中的所有文本数据。这样可以:

package_d <- packageDescription("utils") package_d$Description

但不是这样:package_d$Details

  1. 功能级别:相同的问题,但针对功能。我尝试过,但没有成功:

    function_d <- ?utils::adist function_d$Description

  2. 子层次:我想提取特定包的函数的所有细节、参数和值的描述。。。

非常感谢您的帮助!

我找不到内置函数,但查看完成大部分工作的函数的源代码,这里有一个函数可以从帮助页面中提取文本。

help_text <- function(...) {
file <- help(...)
path <- dirname(file)
dirpath <- dirname(path)
pkgname <- basename(dirpath)
RdDB <- file.path(path, pkgname)
rd <- tools:::fetchRdDB(RdDB, basename(file))
capture.output(tools::Rd2txt(rd, out="", options=list(underline_titles=FALSE)))
}

您可以将它与软件包帮助页和功能帮助页一起使用。

h1 <- help_text(utils)
h2 <- help_text(adist)

您将从帮助页面中获得一组行。你可以用打印

cat(h1, sep="n")

最新更新