R textrecipes step_clean_levels 清晰的分类级别

step_clean_levels() 创建配方步骤的规范，该步骤将清理名义数据(字符或因子)，因此级别仅包含字母、数字和下划线。

用法

step_clean_levels(
  recipe,
  ...,
  role = NA,
  trained = FALSE,
  clean = NULL,
  skip = FALSE,
  id = rand_id("clean_levels")
)

参数

recipe: 一个recipe 对象。该步骤将添加到此配方的操作序列中。
...: 一个或多个选择器函数用于选择受该步骤影响的变量。有关更多详细信息，请参阅recipes::selections()。
role: 由于没有创建新变量，因此此步骤未使用。
trained: 指示预处理数量是否已估计的逻辑。
clean: 用于清理和重新编码分类级别的命名字符向量。在由 recipes::prep.recipe() 计算之前，这是 NULL 。请注意，如果原始变量是字符向量，它将被转换为因子。
skip: 一个合乎逻辑的。当recipes::bake.recipe() 烘焙食谱时是否应该跳过此步骤？虽然所有操作都是在 recipes::prep.recipe() 运行时烘焙的，但某些操作可能无法对新数据进行(例如处理结果变量)。使用 skip = FALSE 时应小心。
id: 该步骤特有的字符串，用于标识它。

值

recipe 的更新版本，其中新步骤添加到现有步骤(如果有)的序列中。

细节

新关卡被清理，然后使用 dplyr::recode_factor() 重置。当要处理的数据包含新水平(即不包含在训练集中)时，它们将被转换为缺失。

整理

当您 tidy() 此步骤时，将返回一个包含列 terms(选择的选择器或变量)、original(原始级别)和 value(已清理的级别)的 tibble。

箱重

底层操作不允许使用案例权重。

也可以看看

step_clean_names() , recipes::step_factor2string() , recipes::step_string2factor() , recipes::step_regex() , recipes::step_unknown() , recipes::step_novel() , recipes::step_other()

文本清理的其他步骤：step_clean_names()

例子

library(recipes)
library(modeldata)
data(Smithsonian)

smith_tr <- Smithsonian[1:15, ]
smith_te <- Smithsonian[16:20, ]

rec <- recipe(~., data = smith_tr)

rec <- rec %>%
  step_clean_levels(name)
rec <- prep(rec, training = smith_tr)

cleaned <- bake(rec, smith_tr)

tidy(rec, number = 1)
#> # A tibble: 15 × 4
#>    terms original                                              value id   
#>    <chr> <chr>                                                 <chr> <chr>
#>  1 name  Anacostia Community Museum                            anac… clea…
#>  2 name  Arthur M. Sackler Gallery                             arth… clea…
#>  3 name  Arts and Industries Building                          arts… clea…
#>  4 name  Cooper Hewitt, Smithsonian Design Museum              coop… clea…
#>  5 name  Freer Gallery of Art                                  free… clea…
#>  6 name  George Gustav Heye Center                             geor… clea…
#>  7 name  Hirshhorn Museum and Sculpture Garden                 hirs… clea…
#>  8 name  National Air and Space Museum                         nati… clea…
#>  9 name  National Museum of African American History and Cult… nati… clea…
#> 10 name  National Museum of African Art                        nati… clea…
#> 11 name  National Museum of American History                   nati… clea…
#> 12 name  National Museum of Natural History                    nati… clea…
#> 13 name  National Museum of the American Indian                nati… clea…
#> 14 name  National Portrait Gallery                             nati… clea…
#> 15 name  Steven F. Udvar-Hazy Center                           stev… clea…

# novel levels are replaced with missing
bake(rec, smith_te)
#> # A tibble: 5 × 3
#>   name  latitude longitude
#>   <fct>    <dbl>     <dbl>
#> 1 NA        38.9     -77.0
#> 2 NA        38.9     -77.0
#> 3 NA        38.9     -77.0
#> 4 NA        38.9     -77.0
#> 5 NA        38.9     -77.1

源代码：R/clean_levels.R

相关用法

注：本文由纯净天空筛选整理自等大神的英文原创作品 Clean Categorical Levels。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。