組蒙特卡羅交叉驗證根據某些分組變量(可能有多個與之關聯的單行)創建數據分割。蒙特卡洛交叉驗證的一次重采樣采用原始數據集中組的隨機樣本(無替換)用於分析。所有其他數據點都添加到評估集中。這種重采樣的常見用途是當您對同一主題進行重複測量時。
參數
- data
-
一個 DataFrame 。
- group
-
data
中的變量(單個字符或名稱),用於將具有相同值的觀察結果分組到折疊內的分析或評估集。 - prop
-
為建模/分析而保留的數據比例。
- times
-
重複采樣的次數。
- ...
-
這些點用於將來的擴展,並且必須為空。
- strata
-
data
中的變量(單個字符或名稱)用於進行分層抽樣。如果不是NULL
,則每次重新采樣都會在分層變量中創建。數字strata
被分為四分位數。 - pool
-
用於確定特定組是否太小的數據比例,是否應合並到另一個組中。我們不建議將此參數降低到默認值 0.1 以下,因為分層組太小存在危險。
例子
data(ames, package = "modeldata")
set.seed(123)
group_mc_cv(ames, group = Neighborhood, times = 5)
#> # Group Monte Carlo cross-validation (0.75/0.25) with 5 resamples
#> # A tibble: 5 × 2
#> splits id
#> <list> <chr>
#> 1 <split [2395/535]> Resample1
#> 2 <split [2236/694]> Resample2
#> 3 <split [2168/762]> Resample3
#> 4 <split [2331/599]> Resample4
#> 5 <split [2115/815]> Resample5
相關用法
- R rsample group_vfold_cv V 組交叉驗證
- R rsample group_bootstraps 團體自舉
- R rsample get_fingerprint 獲取重采樣的標識符
- R rsample get_rsplit 從 rset 中檢索單個 rsplit 對象
- R rsample validation_set 創建驗證拆分以進行調整
- R rsample initial_split 簡單的訓練/測試集分割
- R rsample populate 添加評估指標
- R rsample int_pctl 自舉置信區間
- R rsample vfold_cv V 折交叉驗證
- R rsample rset_reconstruct 使用新的 rset 子類擴展 rsample
- R rsample rolling_origin 滾動原點預測重采樣
- R rsample reverse_splits 反轉分析和評估集
- R rsample labels.rset 從 rset 對象中查找標簽
- R rsample bootstraps 引導抽樣
- R rsample validation_split 創建驗證集
- R rsample reg_intervals 具有線性參數模型的置信區間的便捷函數
- R rsample clustering_cv 集群交叉驗證
- R rsample initial_validation_split 創建初始訓練/驗證/測試拆分
- R rsample loo_cv 留一交叉驗證
- R rsample complement 確定評估樣本
- R rsample slide-resampling 基於時間的重采樣
- R rsample as.data.frame.rsplit 將 rsplit 對象轉換為 DataFrame
- R rsample labels.rsplit 從 rsplit 對象中查找標簽
- R rsample mc_cv 蒙特卡羅交叉驗證
- R rsample tidy.rsplit 整潔的重采樣對象
注:本文由純淨天空篩選整理自Hannah Frick等大神的英文原創作品 Group Monte Carlo Cross-Validation。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。