R embed dictionary 證據權重詞典

根據給定的二元結果構建一組預測變量的災難字典。可以方便地製作給定預測變量集的災難版本，也可以手動調整一些災難值。

用法

dictionary(.data, outcome, ..., Laplace = 1e-06)

參數

.data: 一表格。變量來自的data.frame。
outcome: 結果變量的名稱，恰好有 2 個不同的值。
...: dplyr::select() 接受的預測變量或選擇器的裸名稱。
Laplace: 默認為 1e-6。拉普拉斯平滑估計器的 pseudocount 參數。要避免的值 -Inf/Inf 來自隻有一個結果類別的預測變量類別。設置為 0 以允許 Inf/-Inf。

值

一個小標題，其中包含每個給定預測變量的摘要和不幸。

細節

您可以將自定義字典傳遞給 step_woe() 。它必須具有與 dictionary() 的輸出完全相同的結構。實現此目的的一種簡單方法是調整從其返回的輸出。

參考

庫爾貝克，S.(1959)。信息論和統計學。紐約威利。

Hastie, T.、Tibshirani, R. 和 Friedman, J. (1986)。統計學習的要素，第二版，Springer，2009 年。

Good, I. J. (1985)，“證據權重：簡要調查”，貝葉斯統計，2，第 249-270 頁。

例子


mtcars %>% dictionary("am", cyl, gear:carb)
#> # A tibble: 12 × 9
#>    variable predictor n_tot   n_0   n_1   p_0    p_1      woe outcome
#>    <chr>    <chr>     <int> <dbl> <dbl> <dbl>  <dbl>    <dbl> <chr>  
#>  1 cyl      4            11     3     8 0.158 0.615    1.36   am     
#>  2 cyl      6             7     4     3 0.211 0.231    0.0918 am     
#>  3 cyl      8            14    12     2 0.632 0.154   -1.41   am     
#>  4 gear     3            15    15     0 0.789 0      -16.1    am     
#>  5 gear     4            12     4     8 0.211 0.615    1.07   am     
#>  6 gear     5             5     0     5 0     0.385   15.8    am     
#>  7 carb     1             7     3     4 0.158 0.308    0.667  am     
#>  8 carb     2            10     6     4 0.316 0.308   -0.0260 am     
#>  9 carb     3             3     3     0 0.158 0      -14.5    am     
#> 10 carb     4            10     7     3 0.368 0.231   -0.468  am     
#> 11 carb     6             1     0     1 0     0.0769  14.2    am     
#> 12 carb     8             1     0     1 0     0.0769  14.2    am

源代碼：R/woe.R

相關用法

注：本文由純淨天空篩選整理自Max Kuhn等大神的英文原創作品 Weight of evidence dictionary。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。