R embed dictionary 证据权重词典

根据给定的二元结果构建一组预测变量的灾难字典。可以方便地制作给定预测变量集的灾难版本，也可以手动调整一些灾难值。

用法

dictionary(.data, outcome, ..., Laplace = 1e-06)

参数

.data: 一表格。变量来自的data.frame。
outcome: 结果变量的名称，恰好有 2 个不同的值。
...: dplyr::select() 接受的预测变量或选择器的裸名称。
Laplace: 默认为 1e-6。拉普拉斯平滑估计器的 pseudocount 参数。要避免的值 -Inf/Inf 来自只有一个结果类别的预测变量类别。设置为 0 以允许 Inf/-Inf。

值

一个小标题，其中包含每个给定预测变量的摘要和不幸。

细节

您可以将自定义字典传递给 step_woe() 。它必须具有与 dictionary() 的输出完全相同的结构。实现此目的的一种简单方法是调整从其返回的输出。

参考

库尔贝克，S.(1959)。信息论和统计学。纽约威利。

Hastie, T.、Tibshirani, R. 和 Friedman, J. (1986)。统计学习的要素，第二版，Springer，2009 年。

Good, I. J. (1985)，“证据权重：简要调查”，贝叶斯统计，2，第 249-270 页。

例子


mtcars %>% dictionary("am", cyl, gear:carb)
#> # A tibble: 12 × 9
#>    variable predictor n_tot   n_0   n_1   p_0    p_1      woe outcome
#>    <chr>    <chr>     <int> <dbl> <dbl> <dbl>  <dbl>    <dbl> <chr>  
#>  1 cyl      4            11     3     8 0.158 0.615    1.36   am     
#>  2 cyl      6             7     4     3 0.211 0.231    0.0918 am     
#>  3 cyl      8            14    12     2 0.632 0.154   -1.41   am     
#>  4 gear     3            15    15     0 0.789 0      -16.1    am     
#>  5 gear     4            12     4     8 0.211 0.615    1.07   am     
#>  6 gear     5             5     0     5 0     0.385   15.8    am     
#>  7 carb     1             7     3     4 0.158 0.308    0.667  am     
#>  8 carb     2            10     6     4 0.316 0.308   -0.0260 am     
#>  9 carb     3             3     3     0 0.158 0      -14.5    am     
#> 10 carb     4            10     7     3 0.368 0.231   -0.468  am     
#> 11 carb     6             1     0     1 0     0.0769  14.2    am     
#> 12 carb     8             1     0     1 0     0.0769  14.2    am

源代码：R/woe.R

相关用法

注：本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Weight of evidence dictionary。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。