当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R recipes step_classdist 到类质心的距离


step_classdist() 创建配方步骤的规范,该步骤将数值数据转换为到数据质心的马哈拉诺比斯距离测量值。这是针对分类类变量的每个值完成的。

用法

step_classdist(
  recipe,
  ...,
  class,
  role = "predictor",
  trained = FALSE,
  mean_func = mean,
  cov_func = cov,
  pool = FALSE,
  log = TRUE,
  objects = NULL,
  prefix = "classdist_",
  keep_original_cols = TRUE,
  skip = FALSE,
  id = rand_id("classdist")
)

参数

recipe

一个菜谱对象。该步骤将添加到此配方的操作序列中。

...

一个或多个选择器函数用于为此步骤选择变量。有关更多详细信息,请参阅selections()

class

指定要用作类的单个分类变量的单个字符串。

role

对于此步骤创建的模型项,应为其分配什么分析角色?默认情况下,此步骤根据原始变量创建的新列将用作模型中的预测变量。

trained

指示预处理数量是否已估计的逻辑。

mean_func

计算分布中心的函数。

cov_func

计算协方差矩阵的函数

pool

逻辑:协方差矩阵是否应该通过汇集所有类的数据来计算?

log

逻辑:距离应该通过自然对数函数进行转换吗?

objects

一旦 prep() 训练此步骤,统计数据就会存储在此处。

prefix

生成的新变量的前缀字符串。请参阅下面的注释。

keep_original_cols

将原始变量保留在输出中的逻辑。默认为 FALSE

skip

一个合乎逻辑的。当bake() 烘焙食谱时是否应该跳过此步骤?虽然所有操作都是在 prep() 运行时烘焙的,但某些操作可能无法对新数据进行(例如处理结果变量)。使用skip = TRUE时应小心,因为它可能会影响后续操作的计算。

id

该步骤特有的字符串,用于标识它。

recipe 的更新版本,将新步骤添加到任何现有操作的序列中。

细节

step_classdist 将为 class 变量的每个唯一值创建一个新列。生成的变量不会替换原始值,并且默认情况下具有前缀 classdist_ 。可以使用prefix 参数更改命名格式。

特定类别的质心是使用训练集中每个类别的数据的每个预测变量的多元平均值。预处理新数据点时,此步骤计算从新点到每个类质心的距离。这些距离特征对于捕获线性类边界非常有效。因此,将它们添加到非线性模型中使用的现有预测变量集中非常有用。如果真正的边界实际上是线性的,则模型将更容易学习训练数据模式。

请注意,默认情况下,默认协方差函数要求每个类至少具有与 terms 参数中列出的变量一样多的行。如果是 pool = TRUE ,则必须至少有与变量总体一样多的数据点。

整理

当您 tidy() 这一步时,将返回一个包含列 terms(选择的选择器或变量)、value(类的质心)和 class 的小标题。

箱重

此步骤执行可以利用案例权重的监督操作。因此,案例权重与频率权重以及重要性权重一起使用。有关详细信息,请参阅 case_weights 中的文档和 tidymodels.org 中的示例。

例子

data(penguins, package = "modeldata")
penguins <- penguins[complete.cases(penguins), ]
penguins$island <- NULL
penguins$sex <- NULL

# in case of missing data...
mean2 <- function(x) mean(x, na.rm = TRUE)

# define naming convention
rec <- recipe(species ~ ., data = penguins) %>%
  step_classdist(all_numeric_predictors(),
    class = "species",
    pool = FALSE, mean_func = mean2, prefix = "centroid_"
  )

# default naming
rec <- recipe(species ~ ., data = penguins) %>%
  step_classdist(all_numeric_predictors(),
    class = "species",
    pool = FALSE, mean_func = mean2
  )

rec_dists <- prep(rec, training = penguins)

dists_to_species <- bake(rec_dists, new_data = penguins, everything())
## on log scale:
dist_cols <- grep("classdist", names(dists_to_species), value = TRUE)
dists_to_species[, c("species", dist_cols)]
#> # A tibble: 333 × 4
#>    species classdist_Adelie classdist_Chinstrap classdist_Gentoo
#>    <fct>              <dbl>               <dbl>            <dbl>
#>  1 Adelie             1.04                 3.19             5.10
#>  2 Adelie             0.670                2.61             4.61
#>  3 Adelie             1.45                 2.39             4.68
#>  4 Adelie             1.20                 3.42             5.08
#>  5 Adelie             1.72                 3.57             5.35
#>  6 Adelie             0.903                2.87             4.90
#>  7 Adelie             1.78                 3.61             4.89
#>  8 Adelie             1.66                 2.17             4.88
#>  9 Adelie             2.05                 3.85             5.45
#> 10 Adelie             2.72                 4.24             5.35
#> # ℹ 323 more rows

tidy(rec, number = 1)
#> # A tibble: 1 × 4
#>   terms                    value class id             
#>   <chr>                    <dbl> <chr> <chr>          
#> 1 all_numeric_predictors()    NA NA    classdist_xkjKz
tidy(rec_dists, number = 1)
#> # A tibble: 12 × 4
#>    terms              value class     id             
#>    <chr>              <dbl> <chr>     <chr>          
#>  1 bill_length_mm      38.8 Adelie    classdist_xkjKz
#>  2 bill_depth_mm       18.3 Adelie    classdist_xkjKz
#>  3 flipper_length_mm  190.  Adelie    classdist_xkjKz
#>  4 body_mass_g       3706.  Adelie    classdist_xkjKz
#>  5 bill_length_mm      48.8 Chinstrap classdist_xkjKz
#>  6 bill_depth_mm       18.4 Chinstrap classdist_xkjKz
#>  7 flipper_length_mm  196.  Chinstrap classdist_xkjKz
#>  8 body_mass_g       3733.  Chinstrap classdist_xkjKz
#>  9 bill_length_mm      47.6 Gentoo    classdist_xkjKz
#> 10 bill_depth_mm       15.0 Gentoo    classdist_xkjKz
#> 11 flipper_length_mm  217.  Gentoo    classdist_xkjKz
#> 12 body_mass_g       5092.  Gentoo    classdist_xkjKz
源代码:R/classdist.R

相关用法


注:本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Distances to Class Centroids。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。