组蒙特卡罗交叉验证根据某些分组变量(可能有多个与之关联的单行)创建数据分割。蒙特卡洛交叉验证的一次重采样采用原始数据集中组的随机样本(无替换)用于分析。所有其他数据点都添加到评估集中。这种重采样的常见用途是当您对同一主题进行重复测量时。
参数
- data
-
一个 DataFrame 。
- group
-
data
中的变量(单个字符或名称),用于将具有相同值的观察结果分组到折叠内的分析或评估集。 - prop
-
为建模/分析而保留的数据比例。
- times
-
重复采样的次数。
- ...
-
这些点用于将来的扩展,并且必须为空。
- strata
-
data
中的变量(单个字符或名称)用于进行分层抽样。如果不是NULL
,则每次重新采样都会在分层变量中创建。数字strata
被分为四分位数。 - pool
-
用于确定特定组是否太小的数据比例,是否应合并到另一个组中。我们不建议将此参数降低到默认值 0.1 以下,因为分层组太小存在危险。
例子
data(ames, package = "modeldata")
set.seed(123)
group_mc_cv(ames, group = Neighborhood, times = 5)
#> # Group Monte Carlo cross-validation (0.75/0.25) with 5 resamples
#> # A tibble: 5 × 2
#> splits id
#> <list> <chr>
#> 1 <split [2395/535]> Resample1
#> 2 <split [2236/694]> Resample2
#> 3 <split [2168/762]> Resample3
#> 4 <split [2331/599]> Resample4
#> 5 <split [2115/815]> Resample5
相关用法
- R rsample group_vfold_cv V 组交叉验证
- R rsample group_bootstraps 团体自举
- R rsample get_fingerprint 获取重采样的标识符
- R rsample get_rsplit 从 rset 中检索单个 rsplit 对象
- R rsample validation_set 创建验证拆分以进行调整
- R rsample initial_split 简单的训练/测试集分割
- R rsample populate 添加评估指标
- R rsample int_pctl 自举置信区间
- R rsample vfold_cv V 折交叉验证
- R rsample rset_reconstruct 使用新的 rset 子类扩展 rsample
- R rsample rolling_origin 滚动原点预测重采样
- R rsample reverse_splits 反转分析和评估集
- R rsample labels.rset 从 rset 对象中查找标签
- R rsample bootstraps 引导抽样
- R rsample validation_split 创建验证集
- R rsample reg_intervals 具有线性参数模型的置信区间的便捷函数
- R rsample clustering_cv 集群交叉验证
- R rsample initial_validation_split 创建初始训练/验证/测试拆分
- R rsample loo_cv 留一交叉验证
- R rsample complement 确定评估样本
- R rsample slide-resampling 基于时间的重采样
- R rsample as.data.frame.rsplit 将 rsplit 对象转换为 DataFrame
- R rsample labels.rsplit 从 rsplit 对象中查找标签
- R rsample mc_cv 蒙特卡罗交叉验证
- R rsample tidy.rsplit 整洁的重采样对象
注:本文由纯净天空筛选整理自Hannah Frick等大神的英文原创作品 Group Monte Carlo Cross-Validation。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。