用法
step_nnmf(
recipe,
...,
role = "predictor",
trained = FALSE,
num_comp = 2,
num_run = 30,
options = list(),
res = NULL,
columns = NULL,
prefix = "NNMF",
seed = sample.int(10^5, 1),
keep_original_cols = FALSE,
skip = FALSE,
id = rand_id("nnmf")
)
參數
- recipe
-
一個菜譜對象。該步驟將添加到此配方的操作序列中。
- ...
-
一個或多個選擇器函數用於為此步驟選擇變量。有關更多詳細信息,請參閱
selections()
。 - role
-
對於此步驟創建的模型項,應為其分配什麽分析角色?默認情況下,此步驟根據原始變量創建的新列將用作模型中的預測變量。
- trained
-
指示預處理數量是否已估計的邏輯。
- num_comp
-
保留作為新預測變量的組件數量。如果
num_comp
大於列數或可能組件的數量,則將使用較小的值。如果設置了num_comp = 0
,則不會進行任何轉換,並且所選變量將保持不變,無論keep_original_cols
的值如何。 - num_run
-
用於獲得一致投影的計算運行次數的正整數。
- options
-
通過
dimRed
包中的NNMF()
函數提供 NMF 包中的nmf()
的選項列表。請注意,不應在此處傳遞參數data
和ndim
,並且關閉 NMF 並行處理以支持 resample-level 並行化。 - res
-
一旦
prep()
訓練了該預處理步驟,NNMF()
對象就會存儲在此處。 - columns
-
所選變量名稱的字符串。該字段是一個占位符,一旦使用
prep()
就會被填充。 - prefix
-
將作為結果新變量的前綴的字符串。請參閱下麵的注釋。
- seed
-
一個整數,用於在計算因式分解時單獨設置種子。
- keep_original_cols
-
將原始變量保留在輸出中的邏輯。默認為
FALSE
。 - skip
-
一個合乎邏輯的。當
bake()
烘焙食譜時是否應該跳過此步驟?雖然所有操作都是在prep()
運行時烘焙的,但某些操作可能無法對新數據進行(例如處理結果變量)。使用skip = TRUE
時應小心,因為它可能會影響後續操作的計算。 - id
-
該步驟特有的字符串,用於標識它。
細節
非負矩陣分解計算具有非負值的潛在分量,並考慮到原始數據具有非負值。
參數 num_comp
控製將保留的組件數量(用於派生組件的原始變量將從數據中刪除)。新組件的名稱以 prefix
和一係列數字開頭。變量名稱用零填充。例如,如果 num_comp < 10
,它們的名稱將為 NNMF1
- NNMF9
。如果是 num_comp = 101
,則名稱將為 NNMF1
- NNMF101
。
整理
當您 tidy()
此步驟時,將返回一個包含列 terms
(選擇的選擇器或變量)和組件數量的 tibble。
也可以看看
其他多元變換步驟:step_classdist_shrunken()
, step_classdist()
, step_depth()
, step_geodist()
, step_ica()
, step_isomap()
, step_kpca_poly()
, step_kpca_rbf()
, step_kpca()
, step_mutate_at()
, step_nnmf_sparse()
, step_pca()
, step_pls()
, step_ratio()
, step_spatialsign()
例子
data(biomass, package = "modeldata")
# rec <- recipe(HHV ~ ., data = biomass) %>%
# update_role(sample, new_role = "id var") %>%
# update_role(dataset, new_role = "split variable") %>%
# step_nnmf(all_numeric_predictors(), num_comp = 2, seed = 473, num_run = 2) %>%
# prep(training = biomass)
#
# bake(rec, new_data = NULL)
#
# library(ggplot2)
# bake(rec, new_data = NULL) %>%
# ggplot(aes(x = NNMF2, y = NNMF1, col = HHV)) + geom_point()
相關用法
- R recipes step_nnmf_sparse 帶套索懲罰的非負矩陣分解信號提取
- R recipes step_nzv 近零方差濾波器
- R recipes step_normalize 中心和比例數值數據
- R recipes step_novel 新因子水平的簡單賦值
- R recipes step_num2factor 將數字轉換為因數
- R recipes step_ns 自然樣條基函數
- R recipes step_naomit 刪除缺失值的觀測值
- R recipes step_unknown 將缺失的類別分配給“未知”
- R recipes step_relu 應用(平滑)修正線性變換
- R recipes step_poly_bernstein 廣義伯恩斯坦多項式基
- R recipes step_impute_knn 通過 k 最近鄰進行插補
- R recipes step_impute_mean 使用平均值估算數值數據
- R recipes step_inverse 逆變換
- R recipes step_pls 偏最小二乘特征提取
- R recipes step_ratio 比率變量創建
- R recipes step_geodist 兩個地點之間的距離
- R recipes step_depth 數據深度
- R recipes step_other 折疊一些分類級別
- R recipes step_harmonic 添加正弦和餘弦項以進行諧波分析
- R recipes step_corr 高相關濾波器
- R recipes step_select 使用 dplyr 選擇變量
- R recipes step_regex 檢測正則表達式
- R recipes step_spline_b 基礎樣條
- R recipes step_window 移動窗口函數
- R recipes step_ica ICA 信號提取
注:本文由純淨天空篩選整理自Max Kuhn等大神的英文原創作品 Non-Negative Matrix Factorization Signal Extraction。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。