为什么 mapply 不能按预期使用转换？

bigao • 2022年8月9日 pm11:35 • 问答

我使用和发布了一个问题的答案。基于此评论，我曾经构建过答案。dplyrtidyrMap

接下来，我尝试base R仅使用工具来回答相同的问题，但这并没有按预期工作：

transform(
  df,
  Begin_New = Map(seq, Begin, End - 6000, list(by = 1000)) # or mapply(...)
)

导致错误：

哦，那好吧。这似乎行不通，但为什么这个行得通？

df2 <- data.frame(id = 1:4, nested = c("a, b, f", "c, d", "e", "e, f"))
transform(df2, nested = strsplit(nested, ", "))

在我的理解中Map(seq, Begin, End - 6000, list(by = 1000))，strsplit(nested, ", ")两者都返回一个list()包含向量。我错过了什么？

我读了这个问题Error in (function (..., row.names = NULL, check.rows = FALSE, check.names = TRUE, : Arguments mean different number of rows: 1, 4, 5, 2但我仍然不不知道，为什么这两个例子表现不同。

数据

df <- structure(list(ID = c("A01", "A01", "A01", "A01", "A01", "A01"
), Period = c("Baseline", "Run", "Recovery", "Baseline", "Run", 
"Recovery"), Begin = c(0, 30500, 68500, 2000, 45000, 135000), 
    End = c(30500, 68500, 158000, 43000, 135000, 305000)), row.names = c(NA, 
-6L), class = "data.frame")

回答

我认为它与Create a data.frame where a column is a list 有关。因此，使用I以禁止解释/对象的转换。

transform(
df,
Begin_New = I(Map(seq, Begin, End - 6000, list(by = 1000)))
)

正如@r2evans 已经指出的那样。在第一种情况下，您创建一个新列，在第二种情况下，您覆盖现有的列。

错误似乎在transform.data.frame以及它是如何（重新）分配列的。

transform.data.frame
# function (`_data`, ...)
# {
#     e <- eval(substitute(list(...)), `_data`, parent.frame())
#     tags <- names(e)
#     inx <- match(tags, names(`_data`))
#     matched <- !is.na(inx)
#     if (any(matched)) {
#         `_data`[inx[matched]] <- e[matched]
#         `_data` <- data.frame(`_data`)
#     }
#     if (!all(matched))
#         do.call("data.frame", c(list(`_data`), e[!matched]))
#     else `_data`
# }
# <bytecode: 0x000000000a34e4b0>
# <environment: namespace:base>

具体来说，如果any(matched)那么它使用

`_data`[inx[matched]] <- e[matched]

哪个有效。在您的df2示例中就是这种情况，因为您重新分配了现有变量nested. 但是，如果您选择分配给不存在的变量，它也会失败：

transform(df2, nested2 = strsplit(nested, ", "))
# Error in (function (..., row.names = NULL, check.rows = FALSE, check.names = TRUE,  :
#   arguments imply differing number of rows: 3, 2, 1

如果该列不存在（如原始中的情况df），则

do.call("data.frame", c(list(`_data`), e[!matched]))

失败。

如果我们预先分配df$Begin_New，它会起作用。

df$Begin_New <- NA
str(transform(
df,
Begin_New = Map(seq, Begin, End - 6000, by = 1000) # or mapply(...)
))
# 'data.frame': 6 obs. of  5 variables:
#  $ ID       : chr  "A01" "A01" "A01" "A01" ...
#  $ Period   : chr  "Baseline" "Run" "Recovery" "Baseline" ...
#  $ Begin    : num  0 30500 68500 2000 45000 135000
#  $ End      : num  30500 68500 158000 43000 135000 305000
#  $ Begin_New:List of 6
#   ..$ : num  0 1000 2000 3000 4000 5000 6000 7000 8000 9000 ...
#   ..$ : num  30500 31500 32500 33500 34500 35500 36500 37500 38500 39500 ...
#   ..$ : num  68500 69500 70500 71500 72500 73500 74500 75500 76500 77500 ...
#   ..$ : num  2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 ...
#   ..$ : num  45000 46000 47000 48000 49000 50000 51000 52000 53000 54000 ...
#   ..$ : num  135000 136000 137000 138000 139000 140000 141000 142000 143000 144000 ...

也许这是中的一个错误transform.data.frame，仅由于列的（丢弃的）预先存在而导致不一致的行为似乎很奇怪。如果我们将新变量赋值更改为如下所示：

transform2 <- function (`_data`, ...) {
e <- eval(substitute(list(...)), `_data`, parent.frame())
tags <- names(e)
inx <- match(tags, names(`_data`))
matched <- !is.na(inx)
if (any(matched)) {
`_data`[inx[matched]] <- e[matched]
`_data` <- data.frame(`_data`)
}
if (!all(matched))  {
`_data`[ncol(`_data`) + seq_len(sum(!matched))] <- e[!matched]
`_data` <- data.frame(`_data`)
}
`_data`
}

然后它起作用了。（我还没有测试其他transform.data.frame应该处理的东西，但也许这应该是 R-devel 的错误报告/补丁请求。）

来自文档：“如果某些值不是适当长度的向量，那么您应该得到任何东西！”

以上是为什么 mapply 不能按预期使用转换？的全部内容。

THE END

dataframe dictionary list

二维码

如何获得指向结构末尾的指针？

< <上一篇

在多线程程序中调用 fork() 会阻塞所有线程吗？

下一篇>>

搜索内容

为什么 mapply 不能按预期使用转换？

数据

回答

目录

目录

推荐文章

最新文章