在全球范围内,我感兴趣的是从R文档中获取所有文本数据,将它们放在数据框架中,并应用文本挖掘技术。
- PACKAGE LEVEL:假设我对一个包感兴趣,例如"utils",并且我想获得矢量中的所有文本数据。这样可以:
package_d <- packageDescription("utils")
package_d$Description
但不是这样:package_d$Details
-
功能级别:相同的问题,但针对功能。我尝试过,但没有成功:
function_d <- ?utils::adist function_d$Description
-
子层次:我想提取特定包的函数的所有细节、参数和值的描述。。。
非常感谢您的帮助!
我找不到内置函数,但查看完成大部分工作的函数的源代码,这里有一个函数可以从帮助页面中提取文本。
help_text <- function(...) {
file <- help(...)
path <- dirname(file)
dirpath <- dirname(path)
pkgname <- basename(dirpath)
RdDB <- file.path(path, pkgname)
rd <- tools:::fetchRdDB(RdDB, basename(file))
capture.output(tools::Rd2txt(rd, out="", options=list(underline_titles=FALSE)))
}
您可以将它与软件包帮助页和功能帮助页一起使用。
h1 <- help_text(utils)
h2 <- help_text(adist)
您将从帮助页面中获得一组行。你可以用打印
cat(h1, sep="n")