當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


R rsample group_mc_cv 小組蒙特卡羅交叉驗證

組蒙特卡羅交叉驗證根據某些分組變量(可能有多個與之關聯的單行)創建數據分割。蒙特卡洛交叉驗證的一次重采樣采用原始數據集中組的隨機樣本(無替換)用於分析。所有其他數據點都添加到評估集中。這種重采樣的常見用途是當您對同一主題進行重複測量時。

用法

group_mc_cv(
  data,
  group,
  prop = 3/4,
  times = 25,
  ...,
  strata = NULL,
  pool = 0.1
)

參數

data

一個 DataFrame 。

group

data 中的變量(單個字符或名稱),用於將具有相同值的觀察結果分組到折疊內的分析或評估集。

prop

為建模/分析而保留的數據比例。

times

重複采樣的次數。

...

這些點用於將來的擴展,並且必須為空。

strata

data 中的變量(單個字符或名稱)用於進行分層抽樣。如果不是 NULL ,則每次重新采樣都會在分層變量中創建。數字 strata 被分為四分位數。

pool

用於確定特定組是否太小的數據比例,是否應合並到另一個組中。我們不建議將此參數降低到默認值 0.1 以下,因為分層組太小存在危險。

帶有類 group_mc_cvrsettbl_dftbldata.frame 的 tibble。結果包括數據分割對象的列和標識變量。

例子

data(ames, package = "modeldata")

set.seed(123)
group_mc_cv(ames, group = Neighborhood, times = 5)
#> # Group Monte Carlo cross-validation (0.75/0.25) with 5 resamples  
#> # A tibble: 5 × 2
#>   splits             id       
#>   <list>             <chr>    
#> 1 <split [2395/535]> Resample1
#> 2 <split [2236/694]> Resample2
#> 3 <split [2168/762]> Resample3
#> 4 <split [2331/599]> Resample4
#> 5 <split [2115/815]> Resample5
源代碼:R/mc.R

相關用法


注:本文由純淨天空篩選整理自Hannah Frick等大神的英文原創作品 Group Monte Carlo Cross-Validation。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。