R parsnip min_cols 执行时数据维度检查

对于某些调整参数，值的范围取决于数据维度(例如 mtry )。如果参数值超出这些范围，某些包将会失败。由于模型可能会接收数据的重新采样版本，因此无法在模型拟合点之前设置这些范围。这些函数检查数据的可能范围并根据需要进行调整(带有警告)。

用法

min_cols(num_cols, source)

min_rows(num_rows, source, offset = 0)

参数

num_cols, num_rows: 用户请求的参数值。
source: 拟合中使用的数据的 DataFrame 。如果源名为"data"，则假定一列数据对应于一个结果(并被减去)。
offset: 从数据中可用行数中减去的数字。

值

一个整数(可能还有一个警告)。

例子

nearest_neighbor(neighbors= 100) %>%
  set_engine("kknn") %>%
  set_mode("regression") %>%
  translate()
#> K-Nearest Neighbor Model Specification (regression)
#> 
#> Main Arguments:
#>   neighbors = 100
#> 
#> Computational engine: kknn 
#> 
#> Model fit template:
#> kknn::train.kknn(formula = missing_arg(), data = missing_arg(), 
#>     ks = min_rows(100, data, 5))

library(ranger)
rand_forest(mtry = 2, min_n = 100, trees = 3) %>%
  set_engine("ranger") %>%
  set_mode("regression") %>%
  fit(mpg ~ ., data = mtcars)
#> Warning: 100 samples were requested but there were 32 rows in the data. 32 will be used.
#> parsnip model object
#> 
#> Ranger result
#> 
#> Call:
#>  ranger::ranger(x = maybe_data_frame(x), y = y, mtry = min_cols(~2,      x), num.trees = ~3, min.node.size = min_rows(~100, x), num.threads = 1,      verbose = FALSE, seed = sample.int(10^5, 1)) 
#> 
#> Type:                             Regression 
#> Number of trees:                  3 
#> Sample size:                      32 
#> Number of independent variables:  10 
#> Mtry:                             2 
#> Target node size:                 32 
#> Variable importance mode:         none 
#> Splitrule:                        variance 
#> OOB prediction error (MSE):       39.1275 
#> R squared (OOB):                  -0.07717744

源代码：R/arguments.R

相关用法

注：本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Execution-time data dimension checks。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。