R workflows fit-workflow 適合工作流對象

目前安裝工作流程涉及兩個主要步驟：

使用公式預處理器或通過調用配方上的recipes::prep() 來預處理數據。
使用 parsnip::fit.model_spec() 擬合底層防風草模型。

用法

# S3 method for workflow
fit(object, data, ..., control = control_workflow())

參數

object: 工作流程
data: 擬合工作流程時使用的預測變量和結果的 DataFrame 架
...: 未使用
control: control_workflow() 對象

值

工作流程 object 已在 object$fit$fit 插槽中使用擬合防風草模型進行更新。

細節

將來，模型擬合後還可以添加後處理步驟。

指標變量詳細信息

當您使用模型公式時，R 中的某些建模函數會根據分類數據創建指標/虛擬變量，而有些則不會。當您使用 workflow() 指定並擬合模型時，防風草和工作流程會匹配並重現用戶指定模型的計算引擎的基礎行為。

公式預處理器

在房地產價格modeldata::Sacramento數據集中，type變量具有三個級別："Residential"、"Condo"和"Multi-Family"。此基礎 workflow() 包含通過 add_formula() 添加的公式，用於根據房產類型、平方英尺、床位數量和浴室數量預測房產價格：

set.seed(123)

library(parsnip)
library(recipes)
library(workflows)
library(modeldata)

data("Sacramento")

base_wf <- workflow() %>%
  add_formula(price ~ type + sqft + beds + baths)

第一個模型確實創建了虛擬/指標變量：

lm_spec <- linear_reg() %>%
  set_engine("lm")

base_wf %>%
  add_model(lm_spec) %>%
  fit(Sacramento)

## == Workflow [trained] ================================================
## Preprocessor: Formula
## Model: linear_reg()
## 
## -- Preprocessor ------------------------------------------------------
## price ~ type + sqft + beds + baths
## 
## -- Model -------------------------------------------------------------
## 
## Call:
## stats::lm(formula = ..y ~ ., data = data)
## 
## Coefficients:
##      (Intercept)  typeMulti_Family   typeResidential  
##          32919.4          -21995.8           33688.6  
##             sqft              beds             baths  
##            156.2          -29788.0            8730.0

此 OLS 線性回歸的擬合模型中有五個自變量。使用此模型類型和引擎，房地產的因子預測變量 type 轉換為兩個二元預測變量 typeMulti_Family 和 typeResidential 。 (第三種類型，對於公寓，不需要自己的列，因為它是基線水平)。

第二個模型不創建虛擬/指標變量：

rf_spec <- rand_forest() %>%
  set_mode("regression") %>%
  set_engine("ranger")

base_wf %>%
  add_model(rf_spec) %>%
  fit(Sacramento)

## == Workflow [trained] ================================================
## Preprocessor: Formula
## Model: rand_forest()
## 
## -- Preprocessor ------------------------------------------------------
## price ~ type + sqft + beds + baths
## 
## -- Model -------------------------------------------------------------
## Ranger result
## 
## Call:
##  ranger::ranger(x = maybe_data_frame(x), y = y, num.threads = 1,      verbose = FALSE, seed = sample.int(10^5, 1)) 
## 
## Type:                             Regression 
## Number of trees:                  500 
## Sample size:                      932 
## Number of independent variables:  4 
## Mtry:                             2 
## Target node size:                 5 
## Variable importance mode:         none 
## Splitrule:                        variance 
## OOB prediction error (MSE):       7058847504 
## R squared (OOB):                  0.5894647

請注意，該護林員隨機森林的擬合模型中有四個自變量。使用此模型類型和引擎，不會為正在出售的房地產的 type 創建指示變量。基於樹的模型(例如隨機森林模型)可以直接處理因子預測變量，並且不需要任何到數字二進製變量的轉換。

配方預處理器

當您通過 workflow() 指定模型並通過 add_recipe() 指定配方預處理器時，配方控製是否創建虛擬變量；該配方會覆蓋模型計算引擎的任何底層行為。

例子

library(parsnip)
library(recipes)
library(magrittr)

model <- linear_reg() %>%
  set_engine("lm")

base_wf <- workflow() %>%
  add_model(model)

formula_wf <- base_wf %>%
  add_formula(mpg ~ cyl + log(disp))

fit(formula_wf, mtcars)
#> ══ Workflow [trained] ════════════════════════════════════════════════════
#> Preprocessor: Formula
#> Model: linear_reg()
#> 
#> ── Preprocessor ──────────────────────────────────────────────────────────
#> mpg ~ cyl + log(disp)
#> 
#> ── Model ─────────────────────────────────────────────────────────────────
#> 
#> Call:
#> stats::lm(formula = ..y ~ ., data = data)
#> 
#> Coefficients:
#> (Intercept)          cyl  `log(disp)`  
#>     67.6674      -0.1755      -8.7971  
#> 

recipe <- recipe(mpg ~ cyl + disp, mtcars) %>%
  step_log(disp)

recipe_wf <- base_wf %>%
  add_recipe(recipe)

fit(recipe_wf, mtcars)
#> ══ Workflow [trained] ════════════════════════════════════════════════════
#> Preprocessor: Recipe
#> Model: linear_reg()
#> 
#> ── Preprocessor ──────────────────────────────────────────────────────────
#> 1 Recipe Step
#> 
#> • step_log()
#> 
#> ── Model ─────────────────────────────────────────────────────────────────
#> 
#> Call:
#> stats::lm(formula = ..y ~ ., data = data)
#> 
#> Coefficients:
#> (Intercept)          cyl         disp  
#>     67.6674      -0.1755      -8.7971  
#>

源代碼：R/fit.R

相關用法

注：本文由純淨天空篩選整理自Davis Vaughan等大神的英文原創作品 Fit a workflow object。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。