R recipes step_discretize 离散数值变量

step_discretize() 创建配方步骤的规范，该步骤将数字数据转换为具有大致相同数据点数量的箱的因子(基于训练集)。

用法

step_discretize(
  recipe,
  ...,
  role = NA,
  trained = FALSE,
  num_breaks = 4,
  min_unique = 10,
  objects = NULL,
  options = list(prefix = "bin"),
  skip = FALSE,
  id = rand_id("discretize")
)

参数

recipe: 一个菜谱对象。该步骤将添加到此配方的操作序列中。
...: 一个或多个选择器函数用于为此步骤选择变量。有关更多详细信息，请参阅selections()。
role: 由于没有创建新变量，因此此步骤未使用。
trained: 指示预处理数量是否已估计的逻辑。
num_breaks: 一个整数，定义对数据进行多少次切割。
min_unique: 定义分箱尊严的样本大小线的整数。如果(唯一值的数量) /(cuts+1) 小于 min_unique ，则不会发生离散化。
objects: 一旦 prep() 训练了配方，discretize() 对象就会存储在这里。
options: discretize() 的选项列表。为参数 x 设置默认值。请注意，在转换多个变量时使用选项 prefix 和 labels 可能会出现问题，因为所有变量都会继承这些值。
skip: 一个合乎逻辑的。当bake() 烘焙食谱时是否应该跳过此步骤？虽然所有操作都是在 prep() 运行时烘焙的，但某些操作可能无法对新数据进行(例如处理结果变量)。使用skip = TRUE时应小心，因为它可能会影响后续操作的计算。
id: 该步骤特有的字符串，用于标识它。

值

recipe 的更新版本，将新步骤添加到任何现有操作的序列中。

整理

当您 tidy() 此步骤时，将返回包含列 terms(选择的选择器或变量)和 value(中断)的小标题。

调整参数

此步骤有 2 个调整参数：

min_unique：唯一值阈值(类型：整数，默认值：10)
num_breaks ：切割点数量(类型：整数，默认值：4)

箱重

底层操作不允许使用案例权重。

也可以看看

其他离散化步骤：step_cut()

例子

data(biomass, package = "modeldata")

biomass_tr <- biomass[biomass$dataset == "Training", ]
biomass_te <- biomass[biomass$dataset == "Testing", ]

rec <- recipe(
  HHV ~ carbon + hydrogen + oxygen + nitrogen + sulfur,
  data = biomass_tr
) %>%
  step_discretize(carbon, hydrogen)

rec <- prep(rec, biomass_tr)
#> Warning: Note that the options `prefix` and `labels` will be applied to all variables
binned_te <- bake(rec, biomass_te)
table(binned_te$carbon)
#> 
#> bin1 bin2 bin3 bin4 
#>   22   17   25   16 

tidy(rec, 1)
#> # A tibble: 10 × 3
#>    terms      value id              
#>    <chr>      <dbl> <chr>           
#>  1 carbon   -Inf    discretize_hhrhR
#>  2 carbon     44.7  discretize_hhrhR
#>  3 carbon     47.1  discretize_hhrhR
#>  4 carbon     49.7  discretize_hhrhR
#>  5 carbon    Inf    discretize_hhrhR
#>  6 hydrogen -Inf    discretize_hhrhR
#>  7 hydrogen    5.20 discretize_hhrhR
#>  8 hydrogen    5.78 discretize_hhrhR
#>  9 hydrogen    6.05 discretize_hhrhR
#> 10 hydrogen  Inf    discretize_hhrhR

源代码：R/discretize.R

相关用法

注：本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Discretize Numeric Variables。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。