根据给定的二元结果构建一组预测变量的灾难字典。可以方便地制作给定预测变量集的灾难版本,也可以手动调整一些灾难值。
参数
- .data
-
一表格。变量来自的data.frame。
- outcome
-
结果变量的名称,恰好有 2 个不同的值。
- ...
-
dplyr::select()
接受的预测变量或选择器的裸名称。 - Laplace
-
默认为 1e-6。拉普拉斯平滑估计器的
pseudocount
参数。要避免的值 -Inf/Inf 来自只有一个结果类别的预测变量类别。设置为 0 以允许 Inf/-Inf。
细节
您可以将自定义字典传递给 step_woe()
。它必须具有与 dictionary()
的输出完全相同的结构。实现此目的的一种简单方法是调整从其返回的输出。
参考
库尔贝克,S.(1959)。信息论和统计学。纽约威利。
Hastie, T.、Tibshirani, R. 和 Friedman, J. (1986)。统计学习的要素,第二版,Springer,2009 年。
Good, I. J. (1985),“证据权重:简要调查”,贝叶斯统计,2,第 249-270 页。
例子
mtcars %>% dictionary("am", cyl, gear:carb)
#> # A tibble: 12 × 9
#> variable predictor n_tot n_0 n_1 p_0 p_1 woe outcome
#> <chr> <chr> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
#> 1 cyl 4 11 3 8 0.158 0.615 1.36 am
#> 2 cyl 6 7 4 3 0.211 0.231 0.0918 am
#> 3 cyl 8 14 12 2 0.632 0.154 -1.41 am
#> 4 gear 3 15 15 0 0.789 0 -16.1 am
#> 5 gear 4 12 4 8 0.211 0.615 1.07 am
#> 6 gear 5 5 0 5 0 0.385 15.8 am
#> 7 carb 1 7 3 4 0.158 0.308 0.667 am
#> 8 carb 2 10 6 4 0.316 0.308 -0.0260 am
#> 9 carb 3 3 3 0 0.158 0 -14.5 am
#> 10 carb 4 10 7 3 0.368 0.231 -0.468 am
#> 11 carb 6 1 0 1 0 0.0769 14.2 am
#> 12 carb 8 1 0 1 0 0.0769 14.2 am
相关用法
- R embed step_umap 有监督和无监督均匀流形逼近和投影 (UMAP)
- R embed step_pca_truncated 截断的 PCA 信号提取
- R embed step_lencode_glm 使用似然编码将监督因子转换为线性函数
- R embed is_tf_available 测试一下tensorflow是否可用
- R embed step_pca_sparse 稀疏PCA信号提取
- R embed step_lencode_bayes 使用贝叶斯似然编码将监督因子转换为线性函数
- R embed step_collapse_stringdist 使用 stringdist 的折叠因子级别
- R embed step_collapse_cart 因子水平的监督崩溃
- R embed step_discretize_xgb 使用 XgBoost 离散数值变量
- R embed step_pca_sparse_bayes 稀疏贝叶斯 PCA 信号提取
- R embed add_woe 在 DataFrame 中添加 WoE
- R embed step_lencode_mixed 使用贝叶斯似然编码将监督因子转换为线性函数
- R embed step_embed 将因子编码到多列中
- R embed step_woe 证据权重变换
- R embed step_discretize_cart 使用 CART 离散数值变量
- R embed step_feature_hash 通过特征哈希创建虚拟变量
- R SparkR eq_null_safe用法及代码示例
- R SparkR except用法及代码示例
- R SparkR explain用法及代码示例
- R SparkR exceptAll用法及代码示例
- R dtrMatrix-class 三角形稠密数值矩阵
- R vcov.gam 从 GAM 拟合中提取参数(估计器)协方差矩阵
- R gam.check 拟合 gam 模型的一些诊断
- R ggplot2 annotation_logticks 注释:记录刻度线
- R matrix转list用法及代码示例
注:本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Weight of evidence dictionary。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。