在包代码中从其他包的命名空间中查找对象

我正在重构一个导入许多其他包的完整命名空间的包。我相信这些依赖项中的许多用于单个函数调用用途,使用 importFrom 可以更好地处理它们,或者是不再使用的孤立依赖项。

包中有足够的代码,手动检查每一行寻找不熟悉的函数调用会很乏味。

如何确定在包中使用导入的命名空间中的对象的位置和次数?请注意,这个包不包括单元测试。

这是一个可重现的示例:

DESCRIPTION 文件:

Package: my_package
Title: title
Version: 0.0.1
Authors@R: person(
  given = "A",
  family = "Person",
  role = c("aut", "cre"),
  email = "person@company.com"
)
Description: Something
License: Some license
Encoding: UTF-8
LazyData: true
RoxygenNote: 7.1.1
Imports: 
  dplyr,
  purrr,
  stringr

NAMESPACE 文件:

import(dplyr)
import(purrr)
import(stringr)

my_package.R 文件:

#' my_package
#' @docType package
#' @name my_package
NULL
#' @import dplyr
#' @import purrr
#' @import stringr
NULL

functions.R 文件

#' add 1 to "banana" column and call it "apple"
#' @description demonstrate a variety of dplyr functions
#' @param x a data.frame object
#' @return a data.frame object with columns "apple" and "banana"
#' @examples
#' my_fruit <- data.frame(banana = c(1,2,3), pear = c(4,5,6))
#' my_function(my_fruit)
#' @export
my_function <- function(x) {
  x %>%
    mutate(apple = banana + 1) %>%
    select(apple, banana)
}

我正在寻找一种解决方案,该解决方案可以识别出%>%mutate并且select是导出自dplyr%>%是导出自purrr,并且没有来自附加命名空间的已使用导出stringr。在像%>%从多个命名空间导出的函数的情况下,区分导出来自哪个命名空间对我来说并不重要(在示例中,两者%>%都是magrittr依赖项的重新导出),因为在实际屏蔽发生的地方,当包被加载时会生成警告.

回答

这是一个基本的解决方案

pkgs <- readLines("NAMESPACE")
pattern <- "^import((.*?))$"
pkgs <- pkgs[grepl(pattern, pkgs)]
pkgs <- sub(pattern, "1", pkgs)
pkgs
#> [1] "dplyr"   "purrr"   "stringr"

exports <- sapply(pkgs, getNamespaceExports)
exports <- do.call(rbind, Map(data.frame, package = pkgs, fun = exports))
rownames(exports) <- NULL
head(exports)
#>   package         fun
#> 1   dplyr rows_upsert
#> 2   dplyr   src_local
#> 3   dplyr  db_analyze
#> 4   dplyr    n_groups
#> 5   dplyr    distinct
#> 6   dplyr  summarise_

code <- sapply(list.files("R", full.names = TRUE), parse)
funs <- sapply(code, function(x) setdiff(all.names(x), all.vars(x)))
funs <- funs[lengths(funs) > 0]
funs <- do.call(rbind, Map(data.frame, fun = funs, file = names(funs)))
rownames(funs) <- NULL
funs
#>        fun          file
#> 1       <- R/functions.R
#> 2 function R/functions.R
#> 3        { R/functions.R
#> 4      %>% R/functions.R
#> 5   mutate R/functions.R
#> 6        + R/functions.R
#> 7   select R/functions.R

最终输出:

merge(exports, funs)
#>      fun package          file
#> 1    %>% stringr R/functions.R
#> 2    %>%   purrr R/functions.R
#> 3    %>%   dplyr R/functions.R
#> 4 mutate   dplyr R/functions.R
#> 5 select   dplyr R/functions.R

它不是 100% 健壮的,因为例如一个函数function(x) {select<-identity; select(x)}将显示选择为取自 {dplyr}。

它也会遗漏不在fun()形式中使用的函数,如lapply(my_list, fun).

我们无法真正可靠地检测到那些,如果我们有 100% 的测试覆盖率,这可能会让我们到达那里或至少更接近,这是对那些导入的函数进行柯里化,以便它们告诉我们何时调用它们,然后运行测试.

不过你可能不需要这个。


以上是在包代码中从其他包的命名空间中查找对象的全部内容。
THE END
分享
二维码
< <上一篇
下一篇>>