step_lencode_glm()
创建配方步骤的规范,该步骤将名义(即因子)预测变量转换为从广义线性模型派生的一组分数。
用法
step_lencode_glm(
recipe,
...,
role = NA,
trained = FALSE,
outcome = NULL,
mapping = NULL,
skip = FALSE,
id = rand_id("lencode_glm")
)
参数
- recipe
-
一个菜谱对象。该步骤将添加到此配方的操作序列中。
- ...
-
一个或多个选择器函数用于选择变量。对于
step_lencode_glm
,这表示要编码为数字格式的变量。有关更多详细信息,请参阅recipes::selections()
。对于tidy
方法,当前未使用这些。 - role
-
由于没有创建新变量,因此此步骤未使用。
- trained
-
指示预处理数量是否已估计的逻辑。
- outcome
-
调用
vars
以指定哪个变量用作广义线性模型中的结果。目前仅支持数字和两级因子。 - mapping
-
定义编码的 tibble 结果列表。在
recipes::prep()
训练该步骤之前,这是NULL
。 - skip
-
一个合乎逻辑的。当
recipes::bake()
烘焙食谱时是否应该跳过此步骤?虽然所有操作都是在recipes::prep()
运行时烘焙的,但某些操作可能无法对新数据进行(例如处理结果变量)。使用skip = TRUE
时应小心,因为它可能会影响后续操作的计算 - id
-
该步骤特有的字符串,用于标识它。
值
recipe
的更新版本,其中新步骤添加到现有步骤(如果有)的序列中。对于 tidy
方法,一个 tibble 包含列 terms
(用于编码的选择器或变量)、level
(因子级别)和 value
(编码)。
细节
对于每个因子预测器,广义线性模型适合结果,并且系数作为编码返回。这些系数采用线性预测量表,因此对于因子结果,它们采用 log-odds 单位。这些系数是使用无截距模型创建的,当使用两个因子结果时,log-odds 反映感兴趣的事件是因子的第一级。
对于新颖的水平,返回系数的稍微定时的平均值。
整理
当您tidy()
此步骤时,将返回包含terms
(选定的选择器或变量)、value
和component
列的小标题。
箱重
此步骤执行可以利用案例权重的监督操作。要使用它们,请参阅 recipes::case_weights 中的文档和 tidymodels.org
中的示例。
参考
Micci-Barreca D (2001) “分类和预测问题中高基数分类属性的预处理方案”,ACM SIGKDD Explorations Newsletter,3(1), 27-32。
Zumel N 和 Mount J (2017)“vtreat:用于预测建模的 data.frame 处理器”,arXiv:1611.09477
相关用法
- R embed step_lencode_bayes 使用贝叶斯似然编码将监督因子转换为线性函数
- R embed step_lencode_mixed 使用贝叶斯似然编码将监督因子转换为线性函数
- R embed step_umap 有监督和无监督均匀流形逼近和投影 (UMAP)
- R embed step_pca_truncated 截断的 PCA 信号提取
- R embed step_pca_sparse 稀疏PCA信号提取
- R embed step_collapse_stringdist 使用 stringdist 的折叠因子级别
- R embed step_collapse_cart 因子水平的监督崩溃
- R embed step_discretize_xgb 使用 XgBoost 离散数值变量
- R embed step_pca_sparse_bayes 稀疏贝叶斯 PCA 信号提取
- R embed step_embed 将因子编码到多列中
- R embed step_woe 证据权重变换
- R embed step_discretize_cart 使用 CART 离散数值变量
- R embed step_feature_hash 通过特征哈希创建虚拟变量
- R embed dictionary 证据权重词典
- R embed is_tf_available 测试一下tensorflow是否可用
- R embed add_woe 在 DataFrame 中添加 WoE
- R SparkR eq_null_safe用法及代码示例
- R SparkR except用法及代码示例
- R SparkR explain用法及代码示例
- R SparkR exceptAll用法及代码示例
- R dtrMatrix-class 三角形稠密数值矩阵
- R vcov.gam 从 GAM 拟合中提取参数(估计器)协方差矩阵
- R gam.check 拟合 gam 模型的一些诊断
- R ggplot2 annotation_logticks 注释:记录刻度线
- R matrix转list用法及代码示例
注:本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Supervised Factor Conversions into Linear Functions using Likelihood Encodings。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。