do()
從 dplyr 1.0.0 開始被取代,因為它的語法從來沒有真正讓人感覺它屬於 dplyr 的其餘部分。它被 reframe()
(可以生成多行和多列)、nest_by()
(創建嵌套數據的 rowwise 小標題)和 pick()
(允許您訪問"current"組)。
例子
# do() with unnamed arguments becomes reframe() or summarise()
# . becomes pick()
by_cyl <- mtcars %>% group_by(cyl)
by_cyl %>% do(head(., 2))
#> # A tibble: 6 × 11
#> # Groups: cyl [3]
#> mpg cyl disp hp drat wt qsec vs am gear carb
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 22.8 4 108 93 3.85 2.32 18.6 1 1 4 1
#> 2 24.4 4 147. 62 3.69 3.19 20 1 0 4 2
#> 3 21 6 160 110 3.9 2.62 16.5 0 1 4 4
#> 4 21 6 160 110 3.9 2.88 17.0 0 1 4 4
#> 5 18.7 8 360 175 3.15 3.44 17.0 0 0 3 2
#> 6 14.3 8 360 245 3.21 3.57 15.8 0 0 3 4
# ->
by_cyl %>% reframe(head(pick(everything()), 2))
#> # A tibble: 6 × 11
#> cyl mpg disp hp drat wt qsec vs am gear carb
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 4 22.8 108 93 3.85 2.32 18.6 1 1 4 1
#> 2 4 24.4 147. 62 3.69 3.19 20 1 0 4 2
#> 3 6 21 160 110 3.9 2.62 16.5 0 1 4 4
#> 4 6 21 160 110 3.9 2.88 17.0 0 1 4 4
#> 5 8 18.7 360 175 3.15 3.44 17.0 0 0 3 2
#> 6 8 14.3 360 245 3.21 3.57 15.8 0 0 3 4
by_cyl %>% slice_head(n = 2)
#> # A tibble: 6 × 11
#> # Groups: cyl [3]
#> mpg cyl disp hp drat wt qsec vs am gear carb
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 22.8 4 108 93 3.85 2.32 18.6 1 1 4 1
#> 2 24.4 4 147. 62 3.69 3.19 20 1 0 4 2
#> 3 21 6 160 110 3.9 2.62 16.5 0 1 4 4
#> 4 21 6 160 110 3.9 2.88 17.0 0 1 4 4
#> 5 18.7 8 360 175 3.15 3.44 17.0 0 0 3 2
#> 6 14.3 8 360 245 3.21 3.57 15.8 0 0 3 4
# Can refer to variables directly
by_cyl %>% do(mean = mean(.$vs))
#> # A tibble: 3 × 2
#> # Rowwise:
#> cyl mean
#> <dbl> <list>
#> 1 4 <dbl [1]>
#> 2 6 <dbl [1]>
#> 3 8 <dbl [1]>
# ->
by_cyl %>% summarise(mean = mean(vs))
#> # A tibble: 3 × 2
#> cyl mean
#> <dbl> <dbl>
#> 1 4 0.909
#> 2 6 0.571
#> 3 8 0
# do() with named arguments becomes nest_by() + mutate() & list()
models <- by_cyl %>% do(mod = lm(mpg ~ disp, data = .))
# ->
models <- mtcars %>%
nest_by(cyl) %>%
mutate(mod = list(lm(mpg ~ disp, data = data)))
models %>% summarise(rsq = summary(mod)$r.squared)
#> `summarise()` has grouped output by 'cyl'. You can override using the
#> `.groups` argument.
#> # A tibble: 3 × 2
#> # Groups: cyl [3]
#> cyl rsq
#> <dbl> <dbl>
#> 1 4 0.648
#> 2 6 0.0106
#> 3 8 0.270
# use broom to turn models into data
models %>% do(data.frame(
var = names(coef(.$mod)),
coef(summary(.$mod)))
)
#> # A tibble: 6 × 5
#> # Rowwise:
#> var Estimate Std..Error t.value Pr...t..
#> <chr> <dbl> <dbl> <dbl> <dbl>
#> 1 (Intercept) 40.9 3.59 11.4 0.00000120
#> 2 disp -0.135 0.0332 -4.07 0.00278
#> 3 (Intercept) 19.1 2.91 6.55 0.00124
#> 4 disp 0.00361 0.0156 0.232 0.826
#> 5 (Intercept) 22.0 3.35 6.59 0.0000259
#> 6 disp -0.0196 0.00932 -2.11 0.0568
# ->
models %>% reframe(broom::tidy(mod))
#> # A tibble: 6 × 6
#> cyl term estimate std.error statistic p.value
#> <dbl> <chr> <dbl> <dbl> <dbl> <dbl>
#> 1 4 (Intercept) 40.9 3.59 11.4 0.00000120
#> 2 4 disp -0.135 0.0332 -4.07 0.00278
#> 3 6 (Intercept) 19.1 2.91 6.55 0.00124
#> 4 6 disp 0.00361 0.0156 0.232 0.826
#> 5 8 (Intercept) 22.0 3.35 6.59 0.0000259
#> 6 8 disp -0.0196 0.00932 -2.11 0.0568
相關用法
- R dplyr desc 降序
- R dplyr distinct_all 通過選擇變量來選擇不同的行
- R dplyr distinct 保留不同/唯一的行
- R dplyr group_trim 修剪分組結構
- R dplyr slice 使用行的位置對行進行子集化
- R dplyr copy_to 將本地數據幀複製到遠程src
- R dplyr sample_n 從表中采樣 n 行
- R dplyr consecutive_id 為連續組合生成唯一標識符
- R dplyr row_number 整數排名函數
- R dplyr band_members 樂隊成員
- R dplyr mutate-joins 變異連接
- R dplyr nth 從向量中提取第一個、最後一個或第 n 個值
- R dplyr coalesce 找到第一個非缺失元素
- R dplyr group_split 按組分割 DataFrame
- R dplyr mutate 創建、修改和刪除列
- R dplyr order_by 用於排序窗口函數輸出的輔助函數
- R dplyr context 有關“當前”組或變量的信息
- R dplyr percent_rank 比例排名函數
- R dplyr recode 重新編碼值
- R dplyr starwars 星球大戰人物
- R dplyr between 檢測值落在指定範圍內的位置
- R dplyr cumall 任何、全部和平均值的累積版本
- R dplyr group_map 對每個組應用一個函數
- R dplyr nest_join 嵌套連接
- R dplyr pull 提取單列
注:本文由純淨天空篩選整理自Hadley Wickham等大神的英文原創作品 Do anything。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。