R recipes step_classdist_shrunken 计算分类模型的缩小质心距离

step_classdist_shrunken 创建配方步骤的规范，该步骤将数值数据转换为到正则化类质心的欧几里德距离。这是针对分类类变量的每个值完成的。

用法

step_classdist_shrunken(
  recipe,
  ...,
  class = NULL,
  role = NA,
  trained = FALSE,
  threshold = 1/2,
  sd_offset = 1/2,
  log = TRUE,
  prefix = "classdist_",
  keep_original_cols = TRUE,
  objects = NULL,
  skip = FALSE,
  id = rand_id("classdist_shrunken")
)

参数

recipe: 一个菜谱对象。该步骤将添加到此配方的操作序列中。
...: 一个或多个选择器函数用于为此步骤选择变量。有关更多详细信息，请参阅selections()。
class: 指定要用作类的单个分类变量的单个字符串。
role: 由于没有创建新变量，因此此步骤未使用。
trained: 指示预处理数量是否已估计的逻辑。
threshold: 介于 0 和 1 之间的正则化参数。零表示不使用正则化，一表示质心应缩小到全局质心。
sd_offset: 分位数介于 0 和 1 之间的值，用于稳定合并标准差。
log: 逻辑：距离应该通过自然对数函数进行转换吗？
prefix: 生成的新变量的前缀字符串。请参阅下面的注释。
keep_original_cols: 将原始变量保留在输出中的逻辑。默认为 FALSE 。
objects: 一旦 prep() 训练此步骤，统计数据就会存储在此处。
skip: 一个合乎逻辑的。当bake() 烘焙食谱时是否应该跳过此步骤？虽然所有操作都是在 prep() 运行时烘焙的，但某些操作可能无法对新数据进行(例如处理结果变量)。使用skip = TRUE时应小心，因为它可能会影响后续操作的计算。
id: 该步骤特有的字符串，用于标识它。

细节

特定类别的质心是使用训练集中每个类别的数据的每个预测变量的多元平均值。预处理新数据点时，此步骤计算从新点到每个类质心的距离。这些距离特征对于捕获线性类边界非常有效。因此，将它们添加到非线性模型中使用的现有预测变量集中非常有用。如果真正的边界实际上是线性的，则模型将更容易学习训练数据模式。

缩小的质心使用正则化的形式，其中特定于类的质心收缩到整体class-independent质心。如果预测变量没有提供信息，则缩小它可能会将其完全移至整体质心。这具有消除预测变量对新距离特征的影响的效果。但是，在许多情况下，它可能不会将所有特定于类的函数移至中心。这意味着某些特征只会影响特定类别的分类。

threshold 参数可用于优化应使用多少正则化。

step_classdist_shrunken 将为 class 变量的每个唯一值创建一个新列。生成的变量不会替换原始值，并且默认情况下具有前缀 classdist_ 。可以使用prefix 参数更改命名格式。

整理

当您 tidy() 此步骤时，将返回包含 terms (所选选择器或变量)、value(质心)、class 和 type 列的 tibble。类型具有值 "global" 、 "by_class" 和 "shrunken" 。前两种质心采用原始单位，而最后一种质心已标准化。

箱重

此步骤执行可以利用案例权重的监督操作。因此，案例权重与频率权重以及重要性权重一起使用。有关详细信息，请参阅 case_weights 中的文档和 tidymodels.org 中的示例。

参考

Tibshirani, R.、Hastie, T.、Narasimhan, B. 和 Chu, G. (2002)。通过基因表达中心缩小来诊断多种癌症类型。美国国家科学院院刊，99(10), 6567-6572。

也可以看看

其他多元变换步骤：step_classdist() , step_depth() , step_geodist() , step_ica() , step_isomap() , step_kpca_poly() , step_kpca_rbf() , step_kpca() , step_mutate_at() , step_nnmf_sparse() , step_nnmf() , step_pca() , step_pls() , step_ratio() , step_spatialsign()

例子

data(penguins, package = "modeldata")
penguins <- penguins[complete.cases(penguins), ]
penguins$island <- NULL
penguins$sex <- NULL

# define naming convention
rec <- recipe(species ~ ., data = penguins) %>%
  step_classdist_shrunken(all_numeric_predictors(),
    class = "species",
    threshold = 1 / 4, prefix = "centroid_"
  )

# default naming
rec <- recipe(species ~ ., data = penguins) %>%
  step_classdist_shrunken(all_numeric_predictors(),
    class = "species",
    threshold = 3 / 4
  )

rec_dists <- prep(rec, training = penguins)

dists_to_species <- bake(rec_dists, new_data = penguins, everything())
## on log scale:
dist_cols <- grep("classdist", names(dists_to_species), value = TRUE)
dists_to_species[, c("species", dist_cols)]
#> # A tibble: 333 × 4
#>    species classdist_Adelie classdist_Gentoo classdist_Chinstrap
#>    <fct>              <dbl>            <dbl>               <dbl>
#>  1 Adelie             1.49            1.72                 1.49 
#>  2 Adelie             1.03            1.35                 1.03 
#>  3 Adelie             1.56            1.93                 1.56 
#>  4 Adelie             1.42            1.78                 1.42 
#>  5 Adelie             1.11            1.48                 1.11 
#>  6 Adelie             1.61            1.86                 1.61 
#>  7 Adelie             0.602           0.0916               0.602
#>  8 Adelie             2.02            2.29                 2.02 
#>  9 Adelie             0.898           1.26                 0.898
#> 10 Adelie             0.756           0.673                0.756
#> # ℹ 323 more rows

tidy(rec, number = 1)
#> # A tibble: 1 × 6
#>   terms                    value class type  threshold id                 
#>   <chr>                    <dbl> <chr> <chr>     <dbl> <chr>              
#> 1 all_numeric_predictors()    NA NA    NA           NA classdist_shrunken…
tidy(rec_dists, number = 1)
#> # A tibble: 36 × 6
#>    terms          value class     type     threshold id                   
#>    <chr>          <dbl> <chr>     <chr>        <dbl> <chr>                
#>  1 bill_length_mm  44.0 Adelie    global        0.75 classdist_shrunken_u…
#>  2 bill_length_mm  38.8 Adelie    by_class      0.75 classdist_shrunken_u…
#>  3 bill_length_mm   0   Adelie    shrunken      0.75 classdist_shrunken_u…
#>  4 bill_length_mm  44.0 Gentoo    global        0.75 classdist_shrunken_u…
#>  5 bill_length_mm  47.6 Gentoo    by_class      0.75 classdist_shrunken_u…
#>  6 bill_length_mm   0   Gentoo    shrunken      0.75 classdist_shrunken_u…
#>  7 bill_length_mm  44.0 Chinstrap global        0.75 classdist_shrunken_u…
#>  8 bill_length_mm  48.8 Chinstrap by_class      0.75 classdist_shrunken_u…
#>  9 bill_length_mm   0   Chinstrap shrunken      0.75 classdist_shrunken_u…
#> 10 bill_depth_mm   17.2 Adelie    global        0.75 classdist_shrunken_u…
#> # ℹ 26 more rows

源代码：R/classdist_shrunken.R

相关用法

注：本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Compute shrunken centroid distances for classification models。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。