迭代R中交叉表的指定列

html5 • 2022年9月3日 pm1:29 • 问答

我希望在同一个数据集中运行几十个交叉表，并使用一组结果变量。我有一个函数可以提供我想要的交叉表：

second_table = function(dat, variable1, variable2){
  
  dat %>% 
  tabyl({{variable1}}, {{variable2}}, show_na = FALSE) %>% 
  adorn_percentages("row") %>% 
  adorn_pct_formatting(digits = 1) %>% 
  adorn_ns() 
  
}

以 mtcars 数据集为例，该函数为我提供了我想要的单个变量：

cars = datasets::mtcars

second_table(cars, cyl, vs)

不过，我真正想要的是创建很多这样的表，其中 dat = cars 和 variable2 = vs 参数保持不变，但使用几个不同的列作为 variable1 参数。出于本示例的目的，假设它是以下 4 个变量：

variables = c("cyl", "am", "gear", "carb")

我不确定 purrr 包中的 map 函数是否是执行此操作的最佳方法，但是我一直没有成功尝试使用 map 和 map_at 等相关函数进行各种不同的操作。如果有办法用 purrr 做到这一点，那么这就是我更愿意做的，但我愿意接受任何建议。我真的不在乎输出是什么样子，只是我可以得到我需要的所有交叉表，而无需多次复制和粘贴代码。

任何帮助是极大的赞赏！

回答

由于您的数据集和第二个变量是固定的，您可以像这样简化过程：

library(tidyverse)
library(janitor)

imap(set_names(c("cyl", "am", "gear", "carb")), ~ mtcars %>%
       tabyl(!!rlang::sym(.x), vs, show_na = F) %>% 
       adorn_percentages("row") %>% 
       adorn_pct_formatting(digits = 1) %>% 
       adorn_ns() 
)

输出

$cyl
 cyl           0          1
   4   9.1%  (1) 90.9% (10)
   6  42.9%  (3) 57.1%  (4)
   8 100.0% (14)  0.0%  (0)

$am
 am          0         1
  0 63.2% (12) 36.8% (7)
  1 46.2%  (6) 53.8% (7)

$gear
 gear          0          1
    3 80.0% (12) 20.0%  (3)
    4 16.7%  (2) 83.3% (10)
    5 80.0%  (4) 20.0%  (1)

$carb
 carb          0          1
    1   0.0% (0) 100.0% (7)
    2  50.0% (5)  50.0% (5)
    3 100.0% (3)   0.0% (0)
    4  80.0% (8)  20.0% (2)
    6 100.0% (1)   0.0% (0)
    8 100.0% (1)   0.0% (0)

我使用purrr::imap和purrr::set_names（技术上来自rlang包）来保留输出列表中的变量名称。

以上是迭代R中交叉表的指定列的全部内容。

THE END

二维码

不能在Pandas中增加2列

< <上一篇

检查字符串中的所有字符是否与没有循环的内置方法相同

下一篇>>

搜索内容

迭代R中交叉表的指定列

回答

目录

目录

推荐文章

最新文章