forge()
將特定 blueprint
請求的轉換應用於一組 new_data
。此 new_data
包含將用於生成預測的新預測變量(和潛在結果)。
所有藍圖都具有與其他藍圖一致的返回值,但每個藍圖都足夠獨特,有自己的幫助頁麵。單擊下麵了解如何將每一個與 forge()
結合使用。
-
XY 方法 -
default_xy_blueprint()
-
公式方法 -
default_formula_blueprint()
-
食譜方法 -
default_recipe_blueprint()
參數
- new_data
-
要處理的 DataFrame 或預測變量矩陣。如果是
outcomes = TRUE
,這還應該包含要處理的結果。 - blueprint
-
預處理
blueprint
。 - ...
-
不曾用過。
- outcomes
-
一個合乎邏輯的。結果也應該被處理並返回嗎?
值
包含 3 個元素的命名列表:
-
predictors
:包含預處理的new_data
預測變量的 tibble。 -
outcomes
:如果是outcomes = TRUE
,則包含在new_data
中找到的預處理結果的小標題。否則,NULL
。 -
extras
:如果藍圖不返回額外信息,則為NULL
,或者包含額外信息的命名列表。
細節
如果結果存在於 new_data
中,則可以選擇對其進行處理,並通過設置 outcomes = TRUE
將其返回到返回列表的 outcomes
槽中。當您需要在計算性能之前預處理測試集的結果時,這在進行交叉驗證時非常有用。
例子
# See the blueprint specific documentation linked above
# for various ways to call forge with different
# blueprints.
train <- iris[1:100, ]
test <- iris[101:150, ]
# Formula
processed <- mold(
log(Sepal.Width) ~ Species,
train,
blueprint = default_formula_blueprint(indicators = "none")
)
forge(test, processed$blueprint, outcomes = TRUE)
#> $predictors
#> # A tibble: 50 × 1
#> Species
#> <fct>
#> 1 virginica
#> 2 virginica
#> 3 virginica
#> 4 virginica
#> 5 virginica
#> 6 virginica
#> 7 virginica
#> 8 virginica
#> 9 virginica
#> 10 virginica
#> # ℹ 40 more rows
#>
#> $outcomes
#> # A tibble: 50 × 1
#> `log(Sepal.Width)`
#> <dbl>
#> 1 1.19
#> 2 0.993
#> 3 1.10
#> 4 1.06
#> 5 1.10
#> 6 1.10
#> 7 0.916
#> 8 1.06
#> 9 0.916
#> 10 1.28
#> # ℹ 40 more rows
#>
#> $extras
#> $extras$offset
#> NULL
#>
#>
相關用法
- R hardhat fct_encode_one_hot 將一個因子編碼為 one-hot 指標矩陣
- R hardhat frequency_weights 頻率權重
- R hardhat validate_prediction_size 確保預測具有正確的行數
- R hardhat default_recipe_blueprint 默認配方藍圖
- R hardhat is_blueprint x 是預處理藍圖嗎?
- R hardhat validate_column_names 確保數據包含所需的列名
- R hardhat default_formula_blueprint 默認公式藍圖
- R hardhat update_blueprint 更新預處理藍圖
- R hardhat weighted_table 加權表
- R hardhat validate_outcomes_are_univariate 確保結果是單變量
- R hardhat get_levels 從 DataFrame 中提取因子水平
- R hardhat add_intercept_column 向數據添加截距列
- R hardhat is_frequency_weights x 是頻率權重向量嗎?
- R hardhat model_offset 提取模型偏移
- R hardhat standardize 標準化結果
- R hardhat model_matrix 構建設計矩陣
- R hardhat is_importance_weights x 是重要性權重向量嗎?
- R hardhat run-mold 根據藍圖 Mold()
- R hardhat get_data_classes 從 DataFrame 或矩陣中提取數據類
- R hardhat new_frequency_weights 構建頻率權重向量
- R hardhat validate_no_formula_duplication 確保公式中不出現重複項
- R hardhat default_xy_blueprint 默認 XY 藍圖
- R hardhat shrink 僅對所需列進行子集化
- R hardhat validate_outcomes_are_numeric 確保結果都是數字
- R hardhat scream ? 尖叫。
注:本文由純淨天空篩選整理自Davis Vaughan等大神的英文原創作品 Forge prediction-ready data。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。