当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R textrecipes step_clean_levels 清晰的分类级别


step_clean_levels() 创建配方步骤的规范,该步骤将清理名义数据(字符或因子),因此级别仅包含字母、数字和下划线。

用法

step_clean_levels(
  recipe,
  ...,
  role = NA,
  trained = FALSE,
  clean = NULL,
  skip = FALSE,
  id = rand_id("clean_levels")
)

参数

recipe

一个recipe 对象。该步骤将添加到此配方的操作序列中。

...

一个或多个选择器函数用于选择受该步骤影响的变量。有关更多详细信息,请参阅recipes::selections()

role

由于没有创建新变量,因此此步骤未使用。

trained

指示预处理数量是否已估计的逻辑。

clean

用于清理和重新编码分类级别的命名字符向量。在由 recipes::prep.recipe() 计算之前,这是 NULL 。请注意,如果原始变量是字符向量,它将被转换为因子。

skip

一个合乎逻辑的。当recipes::bake.recipe() 烘焙食谱时是否应该跳过此步骤?虽然所有操作都是在 recipes::prep.recipe() 运行时烘焙的,但某些操作可能无法对新数据进行(例如处理结果变量)。使用 skip = FALSE 时应小心。

id

该步骤特有的字符串,用于标识它。

recipe 的更新版本,其中新步骤添加到现有步骤(如果有)的序列中。

细节

新关卡被清理,然后使用 dplyr::recode_factor() 重置。当要处理的数据包含新水平(即不包含在训练集中)时,它们将被转换为缺失。

整理

当您 tidy() 此步骤时,将返回一个包含列 terms(选择的选择器或变量)、original(原始级别)和 value(已清理的级别)的 tibble。

箱重

底层操作不允许使用案例权重。

例子

library(recipes)
library(modeldata)
data(Smithsonian)

smith_tr <- Smithsonian[1:15, ]
smith_te <- Smithsonian[16:20, ]

rec <- recipe(~., data = smith_tr)

rec <- rec %>%
  step_clean_levels(name)
rec <- prep(rec, training = smith_tr)

cleaned <- bake(rec, smith_tr)

tidy(rec, number = 1)
#> # A tibble: 15 × 4
#>    terms original                                              value id   
#>    <chr> <chr>                                                 <chr> <chr>
#>  1 name  Anacostia Community Museum                            anac… clea…
#>  2 name  Arthur M. Sackler Gallery                             arth… clea…
#>  3 name  Arts and Industries Building                          arts… clea…
#>  4 name  Cooper Hewitt, Smithsonian Design Museum              coop… clea…
#>  5 name  Freer Gallery of Art                                  free… clea…
#>  6 name  George Gustav Heye Center                             geor… clea…
#>  7 name  Hirshhorn Museum and Sculpture Garden                 hirs… clea…
#>  8 name  National Air and Space Museum                         nati… clea…
#>  9 name  National Museum of African American History and Cult… nati… clea…
#> 10 name  National Museum of African Art                        nati… clea…
#> 11 name  National Museum of American History                   nati… clea…
#> 12 name  National Museum of Natural History                    nati… clea…
#> 13 name  National Museum of the American Indian                nati… clea…
#> 14 name  National Portrait Gallery                             nati… clea…
#> 15 name  Steven F. Udvar-Hazy Center                           stev… clea…

# novel levels are replaced with missing
bake(rec, smith_te)
#> # A tibble: 5 × 3
#>   name  latitude longitude
#>   <fct>    <dbl>     <dbl>
#> 1 NA        38.9     -77.0
#> 2 NA        38.9     -77.0
#> 3 NA        38.9     -77.0
#> 4 NA        38.9     -77.0
#> 5 NA        38.9     -77.1
源代码:R/clean_levels.R

相关用法


注:本文由纯净天空筛选整理自大神的英文原创作品 Clean Categorical Levels。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。