根據給定的二元結果構建一組預測變量的災難字典。可以方便地製作給定預測變量集的災難版本,也可以手動調整一些災難值。
參數
- .data
-
一表格。變量來自的data.frame。
- outcome
-
結果變量的名稱,恰好有 2 個不同的值。
- ...
-
dplyr::select()
接受的預測變量或選擇器的裸名稱。 - Laplace
-
默認為 1e-6。拉普拉斯平滑估計器的
pseudocount
參數。要避免的值 -Inf/Inf 來自隻有一個結果類別的預測變量類別。設置為 0 以允許 Inf/-Inf。
細節
您可以將自定義字典傳遞給 step_woe()
。它必須具有與 dictionary()
的輸出完全相同的結構。實現此目的的一種簡單方法是調整從其返回的輸出。
參考
庫爾貝克,S.(1959)。信息論和統計學。紐約威利。
Hastie, T.、Tibshirani, R. 和 Friedman, J. (1986)。統計學習的要素,第二版,Springer,2009 年。
Good, I. J. (1985),“證據權重:簡要調查”,貝葉斯統計,2,第 249-270 頁。
例子
mtcars %>% dictionary("am", cyl, gear:carb)
#> # A tibble: 12 × 9
#> variable predictor n_tot n_0 n_1 p_0 p_1 woe outcome
#> <chr> <chr> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
#> 1 cyl 4 11 3 8 0.158 0.615 1.36 am
#> 2 cyl 6 7 4 3 0.211 0.231 0.0918 am
#> 3 cyl 8 14 12 2 0.632 0.154 -1.41 am
#> 4 gear 3 15 15 0 0.789 0 -16.1 am
#> 5 gear 4 12 4 8 0.211 0.615 1.07 am
#> 6 gear 5 5 0 5 0 0.385 15.8 am
#> 7 carb 1 7 3 4 0.158 0.308 0.667 am
#> 8 carb 2 10 6 4 0.316 0.308 -0.0260 am
#> 9 carb 3 3 3 0 0.158 0 -14.5 am
#> 10 carb 4 10 7 3 0.368 0.231 -0.468 am
#> 11 carb 6 1 0 1 0 0.0769 14.2 am
#> 12 carb 8 1 0 1 0 0.0769 14.2 am
相關用法
- R embed step_umap 有監督和無監督均勻流形逼近和投影 (UMAP)
- R embed step_pca_truncated 截斷的 PCA 信號提取
- R embed step_lencode_glm 使用似然編碼將監督因子轉換為線性函數
- R embed is_tf_available 測試一下tensorflow是否可用
- R embed step_pca_sparse 稀疏PCA信號提取
- R embed step_lencode_bayes 使用貝葉斯似然編碼將監督因子轉換為線性函數
- R embed step_collapse_stringdist 使用 stringdist 的折疊因子級別
- R embed step_collapse_cart 因子水平的監督崩潰
- R embed step_discretize_xgb 使用 XgBoost 離散數值變量
- R embed step_pca_sparse_bayes 稀疏貝葉斯 PCA 信號提取
- R embed add_woe 在 DataFrame 中添加 WoE
- R embed step_lencode_mixed 使用貝葉斯似然編碼將監督因子轉換為線性函數
- R embed step_embed 將因子編碼到多列中
- R embed step_woe 證據權重變換
- R embed step_discretize_cart 使用 CART 離散數值變量
- R embed step_feature_hash 通過特征哈希創建虛擬變量
- R SparkR eq_null_safe用法及代碼示例
- R SparkR except用法及代碼示例
- R SparkR explain用法及代碼示例
- R SparkR exceptAll用法及代碼示例
- R dtrMatrix-class 三角形稠密數值矩陣
- R vcov.gam 從 GAM 擬合中提取參數(估計器)協方差矩陣
- R gam.check 擬合 gam 模型的一些診斷
- R ggplot2 annotation_logticks 注釋:記錄刻度線
- R matrix轉list用法及代碼示例
注:本文由純淨天空篩選整理自Max Kuhn等大神的英文原創作品 Weight of evidence dictionary。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。