當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


R recipes step_classdist 到類質心的距離


step_classdist() 創建配方步驟的規範,該步驟將數值數據轉換為到數據質心的馬哈拉諾比斯距離測量值。這是針對分類類變量的每個值完成的。

用法

step_classdist(
  recipe,
  ...,
  class,
  role = "predictor",
  trained = FALSE,
  mean_func = mean,
  cov_func = cov,
  pool = FALSE,
  log = TRUE,
  objects = NULL,
  prefix = "classdist_",
  keep_original_cols = TRUE,
  skip = FALSE,
  id = rand_id("classdist")
)

參數

recipe

一個菜譜對象。該步驟將添加到此配方的操作序列中。

...

一個或多個選擇器函數用於為此步驟選擇變量。有關更多詳細信息,請參閱selections()

class

指定要用作類的單個分類變量的單個字符串。

role

對於此步驟創建的模型項,應為其分配什麽分析角色?默認情況下,此步驟根據原始變量創建的新列將用作模型中的預測變量。

trained

指示預處理數量是否已估計的邏輯。

mean_func

計算分布中心的函數。

cov_func

計算協方差矩陣的函數

pool

邏輯:協方差矩陣是否應該通過匯集所有類的數據來計算?

log

邏輯:距離應該通過自然對數函數進行轉換嗎?

objects

一旦 prep() 訓練此步驟,統計數據就會存儲在此處。

prefix

生成的新變量的前綴字符串。請參閱下麵的注釋。

keep_original_cols

將原始變量保留在輸出中的邏輯。默認為 FALSE

skip

一個合乎邏輯的。當bake() 烘焙食譜時是否應該跳過此步驟?雖然所有操作都是在 prep() 運行時烘焙的,但某些操作可能無法對新數據進行(例如處理結果變量)。使用skip = TRUE時應小心,因為它可能會影響後續操作的計算。

id

該步驟特有的字符串,用於標識它。

recipe 的更新版本,將新步驟添加到任何現有操作的序列中。

細節

step_classdist 將為 class 變量的每個唯一值創建一個新列。生成的變量不會替換原始值,並且默認情況下具有前綴 classdist_ 。可以使用prefix 參數更改命名格式。

特定類別的質心是使用訓練集中每個類別的數據的每個預測變量的多元平均值。預處理新數據點時,此步驟計算從新點到每個類質心的距離。這些距離特征對於捕獲線性類邊界非常有效。因此,將它們添加到非線性模型中使用的現有預測變量集中非常有用。如果真正的邊界實際上是線性的,則模型將更容易學習訓練數據模式。

請注意,默認情況下,默認協方差函數要求每個類至少具有與 terms 參數中列出的變量一樣多的行。如果是 pool = TRUE ,則必須至少有與變量總體一樣多的數據點。

整理

當您 tidy() 這一步時,將返回一個包含列 terms(選擇的選擇器或變量)、value(類的質心)和 class 的小標題。

箱重

此步驟執行可以利用案例權重的監督操作。因此,案例權重與頻率權重以及重要性權重一起使用。有關詳細信息,請參閱 case_weights 中的文檔和 tidymodels.org 中的示例。

例子

data(penguins, package = "modeldata")
penguins <- penguins[complete.cases(penguins), ]
penguins$island <- NULL
penguins$sex <- NULL

# in case of missing data...
mean2 <- function(x) mean(x, na.rm = TRUE)

# define naming convention
rec <- recipe(species ~ ., data = penguins) %>%
  step_classdist(all_numeric_predictors(),
    class = "species",
    pool = FALSE, mean_func = mean2, prefix = "centroid_"
  )

# default naming
rec <- recipe(species ~ ., data = penguins) %>%
  step_classdist(all_numeric_predictors(),
    class = "species",
    pool = FALSE, mean_func = mean2
  )

rec_dists <- prep(rec, training = penguins)

dists_to_species <- bake(rec_dists, new_data = penguins, everything())
## on log scale:
dist_cols <- grep("classdist", names(dists_to_species), value = TRUE)
dists_to_species[, c("species", dist_cols)]
#> # A tibble: 333 × 4
#>    species classdist_Adelie classdist_Chinstrap classdist_Gentoo
#>    <fct>              <dbl>               <dbl>            <dbl>
#>  1 Adelie             1.04                 3.19             5.10
#>  2 Adelie             0.670                2.61             4.61
#>  3 Adelie             1.45                 2.39             4.68
#>  4 Adelie             1.20                 3.42             5.08
#>  5 Adelie             1.72                 3.57             5.35
#>  6 Adelie             0.903                2.87             4.90
#>  7 Adelie             1.78                 3.61             4.89
#>  8 Adelie             1.66                 2.17             4.88
#>  9 Adelie             2.05                 3.85             5.45
#> 10 Adelie             2.72                 4.24             5.35
#> # ℹ 323 more rows

tidy(rec, number = 1)
#> # A tibble: 1 × 4
#>   terms                    value class id             
#>   <chr>                    <dbl> <chr> <chr>          
#> 1 all_numeric_predictors()    NA NA    classdist_xkjKz
tidy(rec_dists, number = 1)
#> # A tibble: 12 × 4
#>    terms              value class     id             
#>    <chr>              <dbl> <chr>     <chr>          
#>  1 bill_length_mm      38.8 Adelie    classdist_xkjKz
#>  2 bill_depth_mm       18.3 Adelie    classdist_xkjKz
#>  3 flipper_length_mm  190.  Adelie    classdist_xkjKz
#>  4 body_mass_g       3706.  Adelie    classdist_xkjKz
#>  5 bill_length_mm      48.8 Chinstrap classdist_xkjKz
#>  6 bill_depth_mm       18.4 Chinstrap classdist_xkjKz
#>  7 flipper_length_mm  196.  Chinstrap classdist_xkjKz
#>  8 body_mass_g       3733.  Chinstrap classdist_xkjKz
#>  9 bill_length_mm      47.6 Gentoo    classdist_xkjKz
#> 10 bill_depth_mm       15.0 Gentoo    classdist_xkjKz
#> 11 flipper_length_mm  217.  Gentoo    classdist_xkjKz
#> 12 body_mass_g       5092.  Gentoo    classdist_xkjKz
源代碼:R/classdist.R

相關用法


注:本文由純淨天空篩選整理自Max Kuhn等大神的英文原創作品 Distances to Class Centroids。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。