将隐式缺失值转换为显式缺失值。这是 expand()
、 dplyr::full_join()
和 replace_na()
的包装,对于完成缺失的数据组合非常有用。
参数
- data
-
一个 DataFrame 。
- ...
-
<
data-masking
> 要扩展或完成的列规范。列可以是原子向量或列表。-
要查找
x
、y
和z
的所有唯一组合(包括数据中不存在的组合),请将每个变量作为单独的参数提供:expand(df, x, y, z)
或complete(df, x, y, z)
。 -
要仅查找数据中出现的组合,请使用
nesting
:expand(df, nesting(x, y, z))
。 -
您可以将这两种形式结合起来。例如,
expand(df, nesting(school_id, student_id), date)
将为所有可能日期的每个当前 school-student 组合生成一行。
与因子一起使用时,
expand()
和complete()
使用完整的级别集,而不仅仅是数据中出现的级别。如果您只想使用数据中看到的值,请使用forcats::fct_drop()
。与连续变量一起使用时,您可能需要填充数据中未出现的值:为此,请使用
year = 2010:2020
或year = full_seq(year,1)
等表达式。 -
- fill
-
一个命名列表,为每个变量提供一个值,以代替
NA
来缺少组合。 - explicit
-
隐式(新创建的)和显式(预先存在的)缺失值是否都应该由
fill
填充?默认情况下,这是TRUE
,但如果设置为FALSE
,这会将填充限制为仅隐式缺失值。
分组 DataFrame
通过 dplyr::group_by()
创建的分组数据帧,complete()
在每个组内运行。因此,您无法完成分组列。
例子
df <- tibble(
group = c(1:2, 1, 2),
item_id = c(1:2, 2, 3),
item_name = c("a", "a", "b", "b"),
value1 = c(1, NA, 3, 4),
value2 = 4:7
)
df
#> # A tibble: 4 × 5
#> group item_id item_name value1 value2
#> <dbl> <dbl> <chr> <dbl> <int>
#> 1 1 1 a 1 4
#> 2 2 2 a NA 5
#> 3 1 2 b 3 6
#> 4 2 3 b 4 7
# Combinations --------------------------------------------------------------
# Generate all possible combinations of `group`, `item_id`, and `item_name`
# (whether or not they appear in the data)
df %>% complete(group, item_id, item_name)
#> # A tibble: 12 × 5
#> group item_id item_name value1 value2
#> <dbl> <dbl> <chr> <dbl> <int>
#> 1 1 1 a 1 4
#> 2 1 1 b NA NA
#> 3 1 2 a NA NA
#> 4 1 2 b 3 6
#> 5 1 3 a NA NA
#> 6 1 3 b NA NA
#> 7 2 1 a NA NA
#> 8 2 1 b NA NA
#> 9 2 2 a NA 5
#> 10 2 2 b NA NA
#> 11 2 3 a NA NA
#> 12 2 3 b 4 7
# Cross all possible `group` values with the unique pairs of
# `(item_id, item_name)` that already exist in the data
df %>% complete(group, nesting(item_id, item_name))
#> # A tibble: 8 × 5
#> group item_id item_name value1 value2
#> <dbl> <dbl> <chr> <dbl> <int>
#> 1 1 1 a 1 4
#> 2 1 2 a NA NA
#> 3 1 2 b 3 6
#> 4 1 3 b NA NA
#> 5 2 1 a NA NA
#> 6 2 2 a NA 5
#> 7 2 2 b NA NA
#> 8 2 3 b 4 7
# Within each `group`, generate all possible combinations of
# `item_id` and `item_name` that occur in that group
df %>%
dplyr::group_by(group) %>%
complete(item_id, item_name)
#> # A tibble: 8 × 5
#> # Groups: group [2]
#> group item_id item_name value1 value2
#> <dbl> <dbl> <chr> <dbl> <int>
#> 1 1 1 a 1 4
#> 2 1 1 b NA NA
#> 3 1 2 a NA NA
#> 4 1 2 b 3 6
#> 5 2 2 a NA 5
#> 6 2 2 b NA NA
#> 7 2 3 a NA NA
#> 8 2 3 b 4 7
# Supplying values for new rows ---------------------------------------------
# Use `fill` to replace NAs with some value. By default, affects both new
# (implicit) and pre-existing (explicit) missing values.
df %>%
complete(
group,
nesting(item_id, item_name),
fill = list(value1 = 0, value2 = 99)
)
#> # A tibble: 8 × 5
#> group item_id item_name value1 value2
#> <dbl> <dbl> <chr> <dbl> <int>
#> 1 1 1 a 1 4
#> 2 1 2 a 0 99
#> 3 1 2 b 3 6
#> 4 1 3 b 0 99
#> 5 2 1 a 0 99
#> 6 2 2 a 0 5
#> 7 2 2 b 0 99
#> 8 2 3 b 4 7
# Limit the fill to only the newly created (i.e. previously implicit)
# missing values with `explicit = FALSE`
df %>%
complete(
group,
nesting(item_id, item_name),
fill = list(value1 = 0, value2 = 99),
explicit = FALSE
)
#> # A tibble: 8 × 5
#> group item_id item_name value1 value2
#> <dbl> <dbl> <chr> <dbl> <int>
#> 1 1 1 a 1 4
#> 2 1 2 a 0 99
#> 3 1 2 b 3 6
#> 4 1 3 b 0 99
#> 5 2 1 a 0 99
#> 6 2 2 a NA 5
#> 7 2 2 b 0 99
#> 8 2 3 b 4 7
相关用法
- R tidyr chop 砍伐和砍伐
- R tidyr cms_patient_experience 来自医疗保险和医疗补助服务中心的数据
- R tidyr separate_rows 将折叠的列分成多行
- R tidyr extract 使用正则表达式组将字符列提取为多列
- R tidyr pivot_longer_spec 使用规范将数据从宽转为长
- R tidyr unnest_longer 将列表列取消嵌套到行中
- R tidyr uncount “计数” DataFrame
- R tidyr pivot_wider_spec 使用规范将数据从长轴转向宽轴
- R tidyr replace_na 将 NA 替换为指定值
- R tidyr unnest_wider 将列表列取消嵌套到列中
- R tidyr full_seq 在向量中创建完整的值序列
- R tidyr nest 将行嵌套到 DataFrame 的列表列中
- R tidyr separate 使用正则表达式或数字位置将字符列分成多列
- R tidyr pivot_wider 将数据从长轴转向宽轴
- R tidyr nest_legacy Nest() 和 unnest() 的旧版本
- R tidyr separate_longer_delim 将字符串拆分为行
- R tidyr gather 将列收集到键值对中
- R tidyr hoist 将值提升到列表列之外
- R tidyr pivot_longer 将数据从宽转为长
- R tidyr pack 打包和拆包
- R tidyr separate_wider_delim 将字符串拆分为列
- R tidyr drop_na 删除包含缺失值的行
- R tidyr fill 用上一个或下一个值填充缺失值
- R tidyr tidyr_legacy 旧名称修复
- R tidyr expand 扩展 DataFrame 以包含所有可能的值组合
注:本文由纯净天空筛选整理自Hadley Wickham等大神的英文原创作品 Complete a data frame with missing combinations of data。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。