当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R recipes step_discretize 离散数值变量


step_discretize() 创建配方步骤的规范,该步骤将数字数据转换为具有大致相同数据点数量的箱的因子(基于训练集)。

用法

step_discretize(
  recipe,
  ...,
  role = NA,
  trained = FALSE,
  num_breaks = 4,
  min_unique = 10,
  objects = NULL,
  options = list(prefix = "bin"),
  skip = FALSE,
  id = rand_id("discretize")
)

参数

recipe

一个菜谱对象。该步骤将添加到此配方的操作序列中。

...

一个或多个选择器函数用于为此步骤选择变量。有关更多详细信息,请参阅selections()

role

由于没有创建新变量,因此此步骤未使用。

trained

指示预处理数量是否已估计的逻辑。

num_breaks

一个整数,定义对数据进行多少次切割。

min_unique

定义分箱尊严的样本大小线的整数。如果(唯一值的数量) /(cuts+1) 小于 min_unique ,则不会发生离散化。

objects

一旦 prep() 训练了配方,discretize() 对象就会存储在这里。

options

discretize() 的选项列表。为参数 x 设置默认值。请注意,在转换多个变量时使用选项 prefixlabels 可能会出现问题,因为所有变量都会继承这些值。

skip

一个合乎逻辑的。当bake() 烘焙食谱时是否应该跳过此步骤?虽然所有操作都是在 prep() 运行时烘焙的,但某些操作可能无法对新数据进行(例如处理结果变量)。使用skip = TRUE时应小心,因为它可能会影响后续操作的计算。

id

该步骤特有的字符串,用于标识它。

recipe 的更新版本,将新步骤添加到任何现有操作的序列中。

整理

当您 tidy() 此步骤时,将返回包含列 terms(选择的选择器或变量)和 value(中断)的小标题。

调整参数

此步骤有 2 个调整参数:

  • min_unique:唯一值阈值(类型:整数,默认值:10)

  • num_breaks :切割点数量(类型:整数,默认值:4)

箱重

底层操作不允许使用案例权重。

也可以看看

其他离散化步骤:step_cut()

例子

data(biomass, package = "modeldata")

biomass_tr <- biomass[biomass$dataset == "Training", ]
biomass_te <- biomass[biomass$dataset == "Testing", ]

rec <- recipe(
  HHV ~ carbon + hydrogen + oxygen + nitrogen + sulfur,
  data = biomass_tr
) %>%
  step_discretize(carbon, hydrogen)

rec <- prep(rec, biomass_tr)
#> Warning: Note that the options `prefix` and `labels` will be applied to all variables
binned_te <- bake(rec, biomass_te)
table(binned_te$carbon)
#> 
#> bin1 bin2 bin3 bin4 
#>   22   17   25   16 

tidy(rec, 1)
#> # A tibble: 10 × 3
#>    terms      value id              
#>    <chr>      <dbl> <chr>           
#>  1 carbon   -Inf    discretize_hhrhR
#>  2 carbon     44.7  discretize_hhrhR
#>  3 carbon     47.1  discretize_hhrhR
#>  4 carbon     49.7  discretize_hhrhR
#>  5 carbon    Inf    discretize_hhrhR
#>  6 hydrogen -Inf    discretize_hhrhR
#>  7 hydrogen    5.20 discretize_hhrhR
#>  8 hydrogen    5.78 discretize_hhrhR
#>  9 hydrogen    6.05 discretize_hhrhR
#> 10 hydrogen  Inf    discretize_hhrhR
源代码:R/discretize.R

相关用法


注:本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Discretize Numeric Variables。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。