我正在重构一个导入许多其他包的完整命名空间的包。我相信,这些依赖项中的许多都用于使用importFrom更好地处理的单函数调用,或者是不再使用的孤立依赖项。
包中有足够多的代码,手动检查每一行以查找不熟悉的函数调用会很乏味。
如何确定导入命名空间中的对象在包中的使用位置和次数?请注意,此软件包不包括单元测试。
这里有一个可重复的例子:
DESCRIPTION
文件:
Package: my_package
Title: title
Version: 0.0.1
Authors@R: person(
given = "A",
family = "Person",
role = c("aut", "cre"),
email = "person@company.com"
)
Description: Something
License: Some license
Encoding: UTF-8
LazyData: true
RoxygenNote: 7.1.1
Imports:
dplyr,
purrr,
stringr
NAMESPACE
文件:
import(dplyr)
import(purrr)
import(stringr)
my_package.R
文件:
#' my_package
#' @docType package
#' @name my_package
NULL
#' @import dplyr
#' @import purrr
#' @import stringr
NULL
functions.R
文件
#' add 1 to "banana" column and call it "apple"
#' @description demonstrate a variety of dplyr functions
#' @param x a data.frame object
#' @return a data.frame object with columns "apple" and "banana"
#' @examples
#' my_fruit <- data.frame(banana = c(1,2,3), pear = c(4,5,6))
#' my_function(my_fruit)
#' @export
my_function <- function(x) {
x %>%
mutate(apple = banana + 1) %>%
select(apple, banana)
}
我正在寻找一种解决方案,该解决方案可以确定%>%
、mutate
和select
是从dplyr
导出的,%>%
是从purrr
导出的,并且没有从附加的命名空间stringr
使用的导出。在像%>%
这样的函数从多个命名空间导出的情况下,区分导出来自哪个命名空间对我来说并不重要(在本例中,两个%>%
都是从magrittr
依赖项重新导出的(,因为在实际屏蔽发生的地方,加载包时会生成警告。
以下是的基本解决方案
pkgs <- readLines("NAMESPACE")
pattern <- "^import\((.*?)\)$"
pkgs <- pkgs[grepl(pattern, pkgs)]
pkgs <- sub(pattern, "\1", pkgs)
pkgs
#> [1] "dplyr" "purrr" "stringr"
exports <- sapply(pkgs, getNamespaceExports)
exports <- do.call(rbind, Map(data.frame, package = pkgs, fun = exports))
rownames(exports) <- NULL
head(exports)
#> package fun
#> 1 dplyr rows_upsert
#> 2 dplyr src_local
#> 3 dplyr db_analyze
#> 4 dplyr n_groups
#> 5 dplyr distinct
#> 6 dplyr summarise_
code <- sapply(list.files("R", full.names = TRUE), parse)
funs <- sapply(code, function(x) setdiff(all.names(x), all.vars(x)))
funs <- funs[lengths(funs) > 0]
funs <- do.call(rbind, Map(data.frame, fun = funs, file = names(funs)))
rownames(funs) <- NULL
funs
#> fun file
#> 1 <- R/functions.R
#> 2 function R/functions.R
#> 3 { R/functions.R
#> 4 %>% R/functions.R
#> 5 mutate R/functions.R
#> 6 + R/functions.R
#> 7 select R/functions.R
最终输出:
merge(exports, funs)
#> fun package file
#> 1 %>% stringr R/functions.R
#> 2 %>% purrr R/functions.R
#> 3 %>% dplyr R/functions.R
#> 4 mutate dplyr R/functions.R
#> 5 select dplyr R/functions.R
它不是100%鲁棒的,例如函数function(x) {select<-identity; select(x)}
将显示select取自{dplyr}。
它还将错过fun()
形式中未使用的函数,如lapply(my_list, fun)
。
我们无法真正可靠地检测到这些函数,如果我们有100%的测试覆盖率,这可能会让我们达到目标,或者至少更接近目标,那就是讨好那些导入的函数,让它们在调用它们时告诉我们,然后运行测试。
不过你可能不需要这个。
您可以使用getParsedData
获取包中使用的所有函数调用,并将它们与NAMESPACE
中的可用函数连接起来,以找出它们的来源。
在可重复实例my_package
:上测试
library(dplyr)
library(purrr)
library(stringr)
# List functions used in Package
path <- "./my_package"
files <- file.path(path,list.files(path= path, recursive = TRUE, pattern ='\.R$'))
functions <- files %>% map_dfr(~{
getParseData(parse(.x, keep.source=TRUE)) %>%
filter(token %in% c("SYMBOL_FUNCTION_CALL","SPECIAL")) %>%
mutate(file = .x) %>%
rename(fctname = text) %>%
select(file, fctname) %>% unique })
# List of all possible functions imports
imports <- readLines(file.path(path,"NAMESPACE"))
imports <- str_match(imports, "import\(\s*(.*?)\s*\)")[,2]
imports <- imports[!is.na(imports)]
possible.imported.functions <- imports %>% map_dfr(~{
data.frame(package.import = .x,fctname = getNamespaceExports(.x)) })
# Imported functions in use
inner_join(functions,possible.imported.functions, by = c('fctname'='fctname')) %>%
arrange(package.import,fctname) %>%
select(file,package.import,fctname)
#> file package.import fctname
#> 1 my_package/R/functions.R dplyr %>%
#> 2 my_package/R/functions.R dplyr mutate
#> 3 my_package/R/functions.R dplyr select
#> 4 my_package/R/functions.R purrr %>%
#> 5 my_package/R/functions.R stringr %>%