当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R rsample group_mc_cv 小组蒙特卡罗交叉验证


组蒙特卡罗交叉验证根据某些分组变量(可能有多个与之关联的单行)创建数据分割。蒙特卡洛交叉验证的一次重采样采用原始数据集中组的随机样本(无替换)用于分析。所有其他数据点都添加到评估集中。这种重采样的常见用途是当您对同一主题进行重复测量时。

用法

group_mc_cv(
  data,
  group,
  prop = 3/4,
  times = 25,
  ...,
  strata = NULL,
  pool = 0.1
)

参数

data

一个 DataFrame 。

group

data 中的变量(单个字符或名称),用于将具有相同值的观察结果分组到折叠内的分析或评估集。

prop

为建模/分析而保留的数据比例。

times

重复采样的次数。

...

这些点用于将来的扩展,并且必须为空。

strata

data 中的变量(单个字符或名称)用于进行分层抽样。如果不是 NULL ,则每次重新采样都会在分层变量中创建。数字 strata 被分为四分位数。

pool

用于确定特定组是否太小的数据比例,是否应合并到另一个组中。我们不建议将此参数降低到默认值 0.1 以下,因为分层组太小存在危险。

带有类 group_mc_cvrsettbl_dftbldata.frame 的 tibble。结果包括数据分割对象的列和标识变量。

例子

data(ames, package = "modeldata")

set.seed(123)
group_mc_cv(ames, group = Neighborhood, times = 5)
#> # Group Monte Carlo cross-validation (0.75/0.25) with 5 resamples  
#> # A tibble: 5 × 2
#>   splits             id       
#>   <list>             <chr>    
#> 1 <split [2395/535]> Resample1
#> 2 <split [2236/694]> Resample2
#> 3 <split [2168/762]> Resample3
#> 4 <split [2331/599]> Resample4
#> 5 <split [2115/815]> Resample5
源代码:R/mc.R

相关用法


注:本文由纯净天空筛选整理自Hannah Frick等大神的英文原创作品 Group Monte Carlo Cross-Validation。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。