当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R tidyr complete 完成缺少数据组合的 DataFrame


将隐式缺失值转换为显式缺失值。这是 expand()dplyr::full_join()replace_na() 的包装,对于完成缺失的数据组合非常有用。

用法

complete(data, ..., fill = list(), explicit = TRUE)

参数

data

一个 DataFrame 。

...

< data-masking > 要扩展或完成的列规范。列可以是原子向量或列表。

  • 要查找 xyz 的所有唯一组合(包括数据中不存在的组合),请将每个变量作为单独的参数提供: expand(df, x, y, z)complete(df, x, y, z)

  • 要仅查找数据中出现的组合,请使用 nesting : expand(df, nesting(x, y, z))

  • 您可以将这两种形式结合起来。例如,expand(df, nesting(school_id, student_id), date) 将为所有可能日期的每个当前 school-student 组合生成一行。

与因子一起使用时,expand()complete() 使用完整的级别集,而不仅仅是数据中出现的级别。如果您只想使用数据中看到的值,请使用 forcats::fct_drop()

与连续变量一起使用时,您可能需要填充数据中未出现的值:为此,请使用 year = 2010:2020year = full_seq(year,1) 等表达式。

fill

一个命名列表,为每个变量提供一个值,以代替 NA 来缺少组合。

explicit

隐式(新创建的)和显式(预先存在的)缺失值是否都应该由 fill 填充?默认情况下,这是 TRUE ,但如果设置为 FALSE ,这会将填充限制为仅隐式缺失值。

分组 DataFrame

通过 dplyr::group_by() 创建的分组数据帧,complete() 在每个组内运行。因此,您无法完成分组列。

例子

df <- tibble(
  group = c(1:2, 1, 2),
  item_id = c(1:2, 2, 3),
  item_name = c("a", "a", "b", "b"),
  value1 = c(1, NA, 3, 4),
  value2 = 4:7
)
df
#> # A tibble: 4 × 5
#>   group item_id item_name value1 value2
#>   <dbl>   <dbl> <chr>      <dbl>  <int>
#> 1     1       1 a              1      4
#> 2     2       2 a             NA      5
#> 3     1       2 b              3      6
#> 4     2       3 b              4      7

# Combinations --------------------------------------------------------------
# Generate all possible combinations of `group`, `item_id`, and `item_name`
# (whether or not they appear in the data)
df %>% complete(group, item_id, item_name)
#> # A tibble: 12 × 5
#>    group item_id item_name value1 value2
#>    <dbl>   <dbl> <chr>      <dbl>  <int>
#>  1     1       1 a              1      4
#>  2     1       1 b             NA     NA
#>  3     1       2 a             NA     NA
#>  4     1       2 b              3      6
#>  5     1       3 a             NA     NA
#>  6     1       3 b             NA     NA
#>  7     2       1 a             NA     NA
#>  8     2       1 b             NA     NA
#>  9     2       2 a             NA      5
#> 10     2       2 b             NA     NA
#> 11     2       3 a             NA     NA
#> 12     2       3 b              4      7

# Cross all possible `group` values with the unique pairs of
# `(item_id, item_name)` that already exist in the data
df %>% complete(group, nesting(item_id, item_name))
#> # A tibble: 8 × 5
#>   group item_id item_name value1 value2
#>   <dbl>   <dbl> <chr>      <dbl>  <int>
#> 1     1       1 a              1      4
#> 2     1       2 a             NA     NA
#> 3     1       2 b              3      6
#> 4     1       3 b             NA     NA
#> 5     2       1 a             NA     NA
#> 6     2       2 a             NA      5
#> 7     2       2 b             NA     NA
#> 8     2       3 b              4      7

# Within each `group`, generate all possible combinations of
# `item_id` and `item_name` that occur in that group
df %>%
  dplyr::group_by(group) %>%
  complete(item_id, item_name)
#> # A tibble: 8 × 5
#> # Groups:   group [2]
#>   group item_id item_name value1 value2
#>   <dbl>   <dbl> <chr>      <dbl>  <int>
#> 1     1       1 a              1      4
#> 2     1       1 b             NA     NA
#> 3     1       2 a             NA     NA
#> 4     1       2 b              3      6
#> 5     2       2 a             NA      5
#> 6     2       2 b             NA     NA
#> 7     2       3 a             NA     NA
#> 8     2       3 b              4      7

# Supplying values for new rows ---------------------------------------------
# Use `fill` to replace NAs with some value. By default, affects both new
# (implicit) and pre-existing (explicit) missing values.
df %>%
  complete(
    group,
    nesting(item_id, item_name),
    fill = list(value1 = 0, value2 = 99)
  )
#> # A tibble: 8 × 5
#>   group item_id item_name value1 value2
#>   <dbl>   <dbl> <chr>      <dbl>  <int>
#> 1     1       1 a              1      4
#> 2     1       2 a              0     99
#> 3     1       2 b              3      6
#> 4     1       3 b              0     99
#> 5     2       1 a              0     99
#> 6     2       2 a              0      5
#> 7     2       2 b              0     99
#> 8     2       3 b              4      7

# Limit the fill to only the newly created (i.e. previously implicit)
# missing values with `explicit = FALSE`
df %>%
  complete(
    group,
    nesting(item_id, item_name),
    fill = list(value1 = 0, value2 = 99),
    explicit = FALSE
  )
#> # A tibble: 8 × 5
#>   group item_id item_name value1 value2
#>   <dbl>   <dbl> <chr>      <dbl>  <int>
#> 1     1       1 a              1      4
#> 2     1       2 a              0     99
#> 3     1       2 b              3      6
#> 4     1       3 b              0     99
#> 5     2       1 a              0     99
#> 6     2       2 a             NA      5
#> 7     2       2 b              0     99
#> 8     2       3 b              4      7
源代码:R/complete.R

相关用法


注:本文由纯净天空筛选整理自Hadley Wickham等大神的英文原创作品 Complete a data frame with missing combinations of data。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。