当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R hardhat forge 锻造可预测的数据


forge() 将特定 blueprint 请求的转换应用于一组 new_data 。此 new_data 包含将用于生成预测的新预测变量(和潜在结果)。

所有蓝图都具有与其他蓝图一致的返回值,但每个蓝图都足够独特,有自己的帮助页面。单击下面了解如何将每一个与 forge() 结合使用。

用法

forge(new_data, blueprint, ..., outcomes = FALSE)

参数

new_data

要处理的 DataFrame 或预测变量矩阵。如果是 outcomes = TRUE ,这还应该包含要处理的结果。

blueprint

预处理blueprint

...

不曾用过。

outcomes

一个合乎逻辑的。结果也应该被处理并返回吗?

包含 3 个元素的命名列表:

  • predictors :包含预处理的 new_data 预测变量的 tibble。

  • outcomes :如果是 outcomes = TRUE ,则包含在 new_data 中找到的预处理结果的小标题。否则,NULL

  • extras :如果蓝图不返回额外信息,则为NULL,或者包含额外信息的命名列表。

细节

如果结果存在于 new_data 中,则可以选择对其进行处理,并通过设置 outcomes = TRUE 将其返回到返回列表的 outcomes 槽中。当您需要在计算性能之前预处理测试集的结果时,这在进行交叉验证时非常有用。

例子

# See the blueprint specific documentation linked above
# for various ways to call forge with different
# blueprints.

train <- iris[1:100, ]
test <- iris[101:150, ]

# Formula
processed <- mold(
  log(Sepal.Width) ~ Species,
  train,
  blueprint = default_formula_blueprint(indicators = "none")
)

forge(test, processed$blueprint, outcomes = TRUE)
#> $predictors
#> # A tibble: 50 × 1
#>    Species  
#>    <fct>    
#>  1 virginica
#>  2 virginica
#>  3 virginica
#>  4 virginica
#>  5 virginica
#>  6 virginica
#>  7 virginica
#>  8 virginica
#>  9 virginica
#> 10 virginica
#> # ℹ 40 more rows
#> 
#> $outcomes
#> # A tibble: 50 × 1
#>    `log(Sepal.Width)`
#>                 <dbl>
#>  1              1.19 
#>  2              0.993
#>  3              1.10 
#>  4              1.06 
#>  5              1.10 
#>  6              1.10 
#>  7              0.916
#>  8              1.06 
#>  9              0.916
#> 10              1.28 
#> # ℹ 40 more rows
#> 
#> $extras
#> $extras$offset
#> NULL
#> 
#> 
源代码:R/forge.R

相关用法


注:本文由纯净天空筛选整理自Davis Vaughan等大神的英文原创作品 Forge prediction-ready data。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。