forge()
将特定 blueprint
请求的转换应用于一组 new_data
。此 new_data
包含将用于生成预测的新预测变量(和潜在结果)。
所有蓝图都具有与其他蓝图一致的返回值,但每个蓝图都足够独特,有自己的帮助页面。单击下面了解如何将每一个与 forge()
结合使用。
-
XY 方法 -
default_xy_blueprint()
-
公式方法 -
default_formula_blueprint()
-
食谱方法 -
default_recipe_blueprint()
参数
- new_data
-
要处理的 DataFrame 或预测变量矩阵。如果是
outcomes = TRUE
,这还应该包含要处理的结果。 - blueprint
-
预处理
blueprint
。 - ...
-
不曾用过。
- outcomes
-
一个合乎逻辑的。结果也应该被处理并返回吗?
值
包含 3 个元素的命名列表:
-
predictors
:包含预处理的new_data
预测变量的 tibble。 -
outcomes
:如果是outcomes = TRUE
,则包含在new_data
中找到的预处理结果的小标题。否则,NULL
。 -
extras
:如果蓝图不返回额外信息,则为NULL
,或者包含额外信息的命名列表。
细节
如果结果存在于 new_data
中,则可以选择对其进行处理,并通过设置 outcomes = TRUE
将其返回到返回列表的 outcomes
槽中。当您需要在计算性能之前预处理测试集的结果时,这在进行交叉验证时非常有用。
例子
# See the blueprint specific documentation linked above
# for various ways to call forge with different
# blueprints.
train <- iris[1:100, ]
test <- iris[101:150, ]
# Formula
processed <- mold(
log(Sepal.Width) ~ Species,
train,
blueprint = default_formula_blueprint(indicators = "none")
)
forge(test, processed$blueprint, outcomes = TRUE)
#> $predictors
#> # A tibble: 50 × 1
#> Species
#> <fct>
#> 1 virginica
#> 2 virginica
#> 3 virginica
#> 4 virginica
#> 5 virginica
#> 6 virginica
#> 7 virginica
#> 8 virginica
#> 9 virginica
#> 10 virginica
#> # ℹ 40 more rows
#>
#> $outcomes
#> # A tibble: 50 × 1
#> `log(Sepal.Width)`
#> <dbl>
#> 1 1.19
#> 2 0.993
#> 3 1.10
#> 4 1.06
#> 5 1.10
#> 6 1.10
#> 7 0.916
#> 8 1.06
#> 9 0.916
#> 10 1.28
#> # ℹ 40 more rows
#>
#> $extras
#> $extras$offset
#> NULL
#>
#>
相关用法
- R hardhat fct_encode_one_hot 将一个因子编码为 one-hot 指标矩阵
- R hardhat frequency_weights 频率权重
- R hardhat validate_prediction_size 确保预测具有正确的行数
- R hardhat default_recipe_blueprint 默认配方蓝图
- R hardhat is_blueprint x 是预处理蓝图吗?
- R hardhat validate_column_names 确保数据包含所需的列名
- R hardhat default_formula_blueprint 默认公式蓝图
- R hardhat update_blueprint 更新预处理蓝图
- R hardhat weighted_table 加权表
- R hardhat validate_outcomes_are_univariate 确保结果是单变量
- R hardhat get_levels 从 DataFrame 中提取因子水平
- R hardhat add_intercept_column 向数据添加截距列
- R hardhat is_frequency_weights x 是频率权重向量吗?
- R hardhat model_offset 提取模型偏移
- R hardhat standardize 标准化结果
- R hardhat model_matrix 构建设计矩阵
- R hardhat is_importance_weights x 是重要性权重向量吗?
- R hardhat run-mold 根据蓝图 Mold()
- R hardhat get_data_classes 从 DataFrame 或矩阵中提取数据类
- R hardhat new_frequency_weights 构建频率权重向量
- R hardhat validate_no_formula_duplication 确保公式中不出现重复项
- R hardhat default_xy_blueprint 默认 XY 蓝图
- R hardhat shrink 仅对所需列进行子集化
- R hardhat validate_outcomes_are_numeric 确保结果都是数字
- R hardhat scream ? 尖叫。
注:本文由纯净天空筛选整理自Davis Vaughan等大神的英文原创作品 Forge prediction-ready data。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。