R parsnip min_cols 執行時數據維度檢查

對於某些調整參數，值的範圍取決於數據維度(例如 mtry )。如果參數值超出這些範圍，某些包將會失敗。由於模型可能會接收數據的重新采樣版本，因此無法在模型擬合點之前設置這些範圍。這些函數檢查數據的可能範圍並根據需要進行調整(帶有警告)。

用法

min_cols(num_cols, source)

min_rows(num_rows, source, offset = 0)

參數

num_cols, num_rows: 用戶請求的參數值。
source: 擬合中使用的數據的 DataFrame 。如果源名為"data"，則假定一列數據對應於一個結果(並被減去)。
offset: 從數據中可用行數中減去的數字。

值

一個整數(可能還有一個警告)。

例子

nearest_neighbor(neighbors= 100) %>%
  set_engine("kknn") %>%
  set_mode("regression") %>%
  translate()
#> K-Nearest Neighbor Model Specification (regression)
#> 
#> Main Arguments:
#>   neighbors = 100
#> 
#> Computational engine: kknn 
#> 
#> Model fit template:
#> kknn::train.kknn(formula = missing_arg(), data = missing_arg(), 
#>     ks = min_rows(100, data, 5))

library(ranger)
rand_forest(mtry = 2, min_n = 100, trees = 3) %>%
  set_engine("ranger") %>%
  set_mode("regression") %>%
  fit(mpg ~ ., data = mtcars)
#> Warning: 100 samples were requested but there were 32 rows in the data. 32 will be used.
#> parsnip model object
#> 
#> Ranger result
#> 
#> Call:
#>  ranger::ranger(x = maybe_data_frame(x), y = y, mtry = min_cols(~2,      x), num.trees = ~3, min.node.size = min_rows(~100, x), num.threads = 1,      verbose = FALSE, seed = sample.int(10^5, 1)) 
#> 
#> Type:                             Regression 
#> Number of trees:                  3 
#> Sample size:                      32 
#> Number of independent variables:  10 
#> Mtry:                             2 
#> Target node size:                 32 
#> Variable importance mode:         none 
#> Splitrule:                        variance 
#> OOB prediction error (MSE):       39.1275 
#> R squared (OOB):                  -0.07717744

源代碼：R/arguments.R

相關用法

注：本文由純淨天空篩選整理自Max Kuhn等大神的英文原創作品 Execution-time data dimension checks。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。