step_pca_truncated()
創建配方步驟的規範,該步驟將數字數據轉換為一個或多個主成分。它被截斷,因為它隻計算所要求的組件數量,而不是像 recipes::step_pca()
中那樣計算所有組件的數量。
用法
step_pca_truncated(
recipe,
...,
role = "predictor",
trained = FALSE,
num_comp = 5,
options = list(),
res = NULL,
columns = NULL,
prefix = "PC",
keep_original_cols = FALSE,
skip = FALSE,
id = rand_id("pca_truncated")
)
參數
- recipe
-
一個菜譜對象。該步驟將添加到此配方的操作序列中。
- ...
-
一個或多個選擇器函數用於為此步驟選擇變量。有關更多詳細信息,請參閱
selections()
。 - role
-
對於此步驟創建的模型項,應為其分配什麽分析角色?默認情況下,此步驟根據原始變量創建的新列將用作模型中的預測變量。
- trained
-
指示預處理數量是否已估計的邏輯。
- num_comp
-
保留作為新預測變量的組件數量。如果
num_comp
大於列數或可能組件的數量,則將使用較小的值。如果設置了num_comp = 0
,則不會進行任何轉換,並且所選變量將保持不變,無論keep_original_cols
的值如何。 - options
-
irlba::prcomp_irlba()
默認方法的選項列表。參數默認設置為retx = FALSE
、center = FALSE
、scale. = FALSE
和tol = NULL
。請注意,參數x
不應在此處傳遞(或根本不傳遞)。 - res
-
一旦
prep()
訓練了該預處理步驟,irlba::prcomp_irlba()
對象就會存儲在此處。 - columns
-
所選變量名稱的字符串。該字段是一個占位符,一旦使用
prep()
就會被填充。 - prefix
-
生成的新變量的前綴字符串。請參閱下麵的注釋。
- keep_original_cols
-
將原始變量保留在輸出中的邏輯。默認為
FALSE
。 - skip
-
一個合乎邏輯的。當
bake()
烘焙食譜時是否應該跳過此步驟?雖然所有操作都是在prep()
運行時烘焙的,但某些操作可能無法對新數據進行(例如處理結果變量)。使用skip = TRUE
時應小心,因為它可能會影響後續操作的計算。 - id
-
該步驟特有的字符串,用於標識它。
細節
主成分分析 (PCA) 是一組變量的轉換,可產生一組新的人工特征或成分。這些組件旨在捕獲原始變量中的最大信息量(即方差)。此外,這些組件在統計上彼此獨立。這意味著它們可用於對抗數據集中的大量 inter-variables 相關性。
建議在運行 PCA 之前對變量進行標準化。在這裏,每個變量將在 PCA 計算之前居中並縮放。可以使用 options
參數或使用 step_center()
和 step_scale()
進行更改。
參數 num_comp
控製將保留的組件數量(用於派生組件的原始變量將從數據中刪除)。新組件的名稱以 prefix
和一係列數字開頭。變量名稱用零填充。例如,如果 num_comp < 10
,它們的名稱將為 PC1
- PC9
。如果是 num_comp = 101
,則名稱將為 PC1
- PC101
。
整理
當您 tidy()
此步驟時,使用 type = "coef"
表示每個組件的變量加載,或使用 type = "variance"
表示每個組件所占的方差。
箱重
此步驟執行可以利用案例權重的無監督操作。因此,個案權重僅與頻率權重一起使用。有關更多信息,請參閱 case_weights 中的文檔和 tidymodels.org
中的示例。
例子
rec <- recipe(~., data = mtcars)
pca_trans <- rec %>%
step_normalize(all_numeric()) %>%
step_pca_truncated(all_numeric(), num_comp = 2)
pca_estimates <- prep(pca_trans, training = mtcars)
pca_data <- bake(pca_estimates, mtcars)
rng <- extendrange(c(pca_data$PC1, pca_data$PC2))
plot(pca_data$PC1, pca_data$PC2,
xlim = rng, ylim = rng
)
tidy(pca_trans, number = 2)
#> # A tibble: 1 × 4
#> terms value component id
#> <chr> <dbl> <chr> <chr>
#> 1 all_numeric() NA NA pca_truncated_AGa8C
tidy(pca_estimates, number = 2)
#> # A tibble: 22 × 4
#> terms value component id
#> <chr> <dbl> <chr> <chr>
#> 1 mpg 0.363 PC1 pca_truncated_AGa8C
#> 2 cyl -0.374 PC1 pca_truncated_AGa8C
#> 3 disp -0.368 PC1 pca_truncated_AGa8C
#> 4 hp -0.330 PC1 pca_truncated_AGa8C
#> 5 drat 0.294 PC1 pca_truncated_AGa8C
#> 6 wt -0.346 PC1 pca_truncated_AGa8C
#> 7 qsec 0.200 PC1 pca_truncated_AGa8C
#> 8 vs 0.307 PC1 pca_truncated_AGa8C
#> 9 am 0.235 PC1 pca_truncated_AGa8C
#> 10 gear 0.207 PC1 pca_truncated_AGa8C
#> # ℹ 12 more rows
相關用法
- R embed step_pca_sparse 稀疏PCA信號提取
- R embed step_pca_sparse_bayes 稀疏貝葉斯 PCA 信號提取
- R embed step_umap 有監督和無監督均勻流形逼近和投影 (UMAP)
- R embed step_lencode_glm 使用似然編碼將監督因子轉換為線性函數
- R embed step_lencode_bayes 使用貝葉斯似然編碼將監督因子轉換為線性函數
- R embed step_collapse_stringdist 使用 stringdist 的折疊因子級別
- R embed step_collapse_cart 因子水平的監督崩潰
- R embed step_discretize_xgb 使用 XgBoost 離散數值變量
- R embed step_lencode_mixed 使用貝葉斯似然編碼將監督因子轉換為線性函數
- R embed step_embed 將因子編碼到多列中
- R embed step_woe 證據權重變換
- R embed step_discretize_cart 使用 CART 離散數值變量
- R embed step_feature_hash 通過特征哈希創建虛擬變量
- R embed dictionary 證據權重詞典
- R embed is_tf_available 測試一下tensorflow是否可用
- R embed add_woe 在 DataFrame 中添加 WoE
- R SparkR eq_null_safe用法及代碼示例
- R SparkR except用法及代碼示例
- R SparkR explain用法及代碼示例
- R SparkR exceptAll用法及代碼示例
- R dtrMatrix-class 三角形稠密數值矩陣
- R vcov.gam 從 GAM 擬合中提取參數(估計器)協方差矩陣
- R gam.check 擬合 gam 模型的一些診斷
- R ggplot2 annotation_logticks 注釋:記錄刻度線
- R matrix轉list用法及代碼示例
注:本文由純淨天空篩選整理自Max Kuhn等大神的英文原創作品 Truncated PCA Signal Extraction。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。