当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R recipes step_integer 将值转换为预定义的整数


step_integer() 创建配方步骤的规范,该步骤将根据原始数据值将新数据转换为一组整数。

用法

step_integer(
  recipe,
  ...,
  role = "predictor",
  trained = FALSE,
  strict = TRUE,
  zero_based = FALSE,
  key = NULL,
  skip = FALSE,
  id = rand_id("integer")
)

参数

recipe

一个菜谱对象。该步骤将添加到此配方的操作序列中。

...

一个或多个选择器函数用于为此步骤选择变量。有关更多详细信息,请参阅selections()

role

对于此步骤创建的模型项,应为其分配什么分析角色?默认情况下,此步骤根据原始变量创建的新列将用作模型中的预测变量。

trained

指示预处理数量是否已估计的逻辑。

strict

值是否应作为整数返回(而不是双精度)的逻辑。

zero_based

整数是否应从零开始并将新值附加为最大整数的逻辑。

key

包含为 terms 中包含的每个变量创建整数变量所需的信息的列表。在 prep() 训练该步骤之前,这是 NULL

skip

一个合乎逻辑的。当bake() 烘焙食谱时是否应该跳过此步骤?虽然所有操作都是在 prep() 运行时烘焙的,但某些操作可能无法对新数据进行(例如处理结果变量)。使用skip = TRUE时应小心,因为它可能会影响后续操作的计算。

id

该步骤特有的字符串,用于标识它。

recipe 的更新版本,将新步骤添加到任何现有操作的序列中。

细节

step_integer 将从训练集中确定每个变量的唯一值(不包括缺失值),对它们进行排序,然后为每个值分配整数。烘焙时,每个数据点都会转换为其相应的整数或尚未见过的数据的零值(尽管请参阅上面的 zero_based 参数)。缺失值传播。

因子输入按其水平排序。所有其他均按 sort 排序。

不管名称如何,新值都会以数字形式返回,除非 strict = TRUE ,这会将结果强制为整数。

整理

当您 tidy() 此步骤时,将返回一个包含列 terms(选择的选择器或变量)和 value(带有转换键的列表列)的 tibble。

箱重

底层操作不允许使用案例权重。

例子

data(Sacramento, package = "modeldata")

sacr_tr <- Sacramento[1:100, ]
sacr_tr$sqft[1] <- NA

sacr_te <- Sacramento[101:105, ]
sacr_te$sqft[1] <- NA
sacr_te$city[1] <- "whoville"
#> Warning: invalid factor level, NA generated
sacr_te$city[2] <- NA

rec <- recipe(type ~ ., data = sacr_tr) %>%
  step_integer(all_predictors()) %>%
  prep(training = sacr_tr)

bake(rec, sacr_te, all_predictors())
#> # A tibble: 5 × 8
#>    city   zip  beds baths  sqft price latitude longitude
#>   <int> <int> <int> <int> <int> <int>    <int>     <int>
#> 1    NA    35     4     2    NA     0        0         0
#> 2    NA    62     3     2     0     0        0         0
#> 3    28    34     3     2    56     0        0         0
#> 4    34    51     3     1     0     0        0         0
#> 5    34    58     4     3     0     0        0         0
tidy(rec, number = 1)
#> # A tibble: 8 × 3
#>   terms     value             id           
#>   <chr>     <list>            <chr>        
#> 1 city      <tibble [37 × 2]> integer_3IckW
#> 2 zip       <tibble [68 × 2]> integer_3IckW
#> 3 beds      <tibble [5 × 2]>  integer_3IckW
#> 4 baths     <tibble [4 × 2]>  integer_3IckW
#> 5 sqft      <tibble [94 × 2]> integer_3IckW
#> 6 price     <tibble [95 × 2]> integer_3IckW
#> 7 latitude  <tibble [99 × 2]> integer_3IckW
#> 8 longitude <tibble [99 × 2]> integer_3IckW
源代码:R/integer.R

相关用法


注:本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Convert values to predefined integers。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。