当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R embed dictionary 证据权重词典


根据给定的二元结果构建一组预测变量的灾难字典。可以方便地制作给定预测变量集的灾难版本,也可以手动调整一些灾难值。

用法

dictionary(.data, outcome, ..., Laplace = 1e-06)

参数

.data

一表格。变量来自的data.frame。

outcome

结果变量的名称,恰好有 2 个不同的值。

...

dplyr::select() 接受的预测变量或选择器的裸名称。

Laplace

默认为 1e-6。拉普拉斯平滑估计器的 pseudocount 参数。要避免的值 -Inf/Inf 来自只有一个结果类别的预测变量类别。设置为 0 以允许 Inf/-Inf。

一个小标题,其中包含每个给定预测变量的摘要和不幸。

细节

您可以将自定义字典传递给 step_woe() 。它必须具有与 dictionary() 的输出完全相同的结构。实现此目的的一种简单方法是调整从其返回的输出。

参考

库尔贝克,S.(1959)。信息论和统计学。纽约威利。

Hastie, T.、Tibshirani, R. 和 Friedman, J. (1986)。统计学习的要素,第二版,Springer,2009 年。

Good, I. J. (1985),“证据权重:简要调查”,贝叶斯统计,2,第 249-270 页。

例子


mtcars %>% dictionary("am", cyl, gear:carb)
#> # A tibble: 12 × 9
#>    variable predictor n_tot   n_0   n_1   p_0    p_1      woe outcome
#>    <chr>    <chr>     <int> <dbl> <dbl> <dbl>  <dbl>    <dbl> <chr>  
#>  1 cyl      4            11     3     8 0.158 0.615    1.36   am     
#>  2 cyl      6             7     4     3 0.211 0.231    0.0918 am     
#>  3 cyl      8            14    12     2 0.632 0.154   -1.41   am     
#>  4 gear     3            15    15     0 0.789 0      -16.1    am     
#>  5 gear     4            12     4     8 0.211 0.615    1.07   am     
#>  6 gear     5             5     0     5 0     0.385   15.8    am     
#>  7 carb     1             7     3     4 0.158 0.308    0.667  am     
#>  8 carb     2            10     6     4 0.316 0.308   -0.0260 am     
#>  9 carb     3             3     3     0 0.158 0      -14.5    am     
#> 10 carb     4            10     7     3 0.368 0.231   -0.468  am     
#> 11 carb     6             1     0     1 0     0.0769  14.2    am     
#> 12 carb     8             1     0     1 0     0.0769  14.2    am     
源代码:R/woe.R

相关用法


注:本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Weight of evidence dictionary。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。