R rsample group_mc_cv 小組蒙特卡羅交叉驗證

組蒙特卡羅交叉驗證根據某些分組變量(可能有多個與之關聯的單行)創建數據分割。蒙特卡洛交叉驗證的一次重采樣采用原始數據集中組的隨機樣本(無替換)用於分析。所有其他數據點都添加到評估集中。這種重采樣的常見用途是當您對同一主題進行重複測量時。

用法

group_mc_cv(
  data,
  group,
  prop = 3/4,
  times = 25,
  ...,
  strata = NULL,
  pool = 0.1
)

參數

data: 一個 DataFrame 。
group: data 中的變量(單個字符或名稱)，用於將具有相同值的觀察結果分組到折疊內的分析或評估集。
prop: 為建模/分析而保留的數據比例。
times: 重複采樣的次數。
...: 這些點用於將來的擴展，並且必須為空。
strata: data 中的變量(單個字符或名稱)用於進行分層抽樣。如果不是 NULL ，則每次重新采樣都會在分層變量中創建。數字 strata 被分為四分位數。
pool: 用於確定特定組是否太小的數據比例，是否應合並到另一個組中。我們不建議將此參數降低到默認值 0.1 以下，因為分層組太小存在危險。

值

帶有類 group_mc_cv 、 rset 、 tbl_df 、 tbl 和 data.frame 的 tibble。結果包括數據分割對象的列和標識變量。

例子

data(ames, package = "modeldata")

set.seed(123)
group_mc_cv(ames, group = Neighborhood, times = 5)
#> # Group Monte Carlo cross-validation (0.75/0.25) with 5 resamples  
#> # A tibble: 5 × 2
#>   splits             id       
#>   <list>             <chr>    
#> 1 <split [2395/535]> Resample1
#> 2 <split [2236/694]> Resample2
#> 3 <split [2168/762]> Resample3
#> 4 <split [2331/599]> Resample4
#> 5 <split [2115/815]> Resample5

源代碼：R/mc.R

相關用法

注：本文由純淨天空篩選整理自Hannah Frick等大神的英文原創作品 Group Monte Carlo Cross-Validation。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。