R rsample group_bootstraps 团体自举

组引导根据某些分组变量(可能有多个与其关联的行)创建数据拆分。这种重采样的常见用途是当您对同一主题进行重复测量时。引导样本是使用替换方法生成的与原始数据集大小相同的样本。这会导致分析样本具有某些原始数据行的多个重复项。评估集定义为未包含在引导样本中的原始数据行。这通常称为 "out-of-bag" (OOB) 示例。

用法

group_bootstraps(
  data,
  group,
  times = 25,
  apparent = FALSE,
  ...,
  strata = NULL,
  pool = 0.1
)

参数

data: 一个 DataFrame 。
group: data 中的变量(单个字符或名称)，用于将具有相同值的观察结果分组到折叠内的分析或评估集。
times: 引导样本的数量。
apparent: 一个合乎逻辑的。如果分析和保留子集是整个数据集，是否应该添加额外的重新采样。对于 summary 函数使用的一些需要表观错误率的估计器来说，这是必需的。
...: 这些点用于将来的扩展，并且必须为空。
strata: data 中的变量(单个字符或名称)用于进行分层抽样。如果不是 NULL ，则每次重新采样都会在分层变量中创建。数字 strata 被分为四分位数。
pool: 用于确定特定组是否太小的数据比例，是否应合并到另一个组中。我们不建议将此参数降低到默认值 0.1 以下，因为分层组太小存在危险。

值

带有类 group_bootstraps 的 tibble

bootstraps、rset、tbl_df、tbl 和 data.frame。结果包括数据分割对象的列和名为 id 的列，其中包含带有重采样标识符的字符串。

细节

参数 apparent 启用附加 "resample" 的选项，其中分析和评估数据集与原始数据集相同。这对于某些类型的引导结果分析可能是必需的。

例子

data(ames, package = "modeldata")

set.seed(13)
group_bootstraps(ames, Neighborhood, times = 3)
#> # Group bootstrap sampling 
#> # A tibble: 3 × 2
#>   splits              id        
#>   <list>              <chr>     
#> 1 <split [2959/1072]> Bootstrap1
#> 2 <split [2899/1334]> Bootstrap2
#> 3 <split [2937/1203]> Bootstrap3
group_bootstraps(ames, Neighborhood, times = 3, apparent = TRUE)
#> # Group bootstrap sampling with apparent sample 
#> # A tibble: 4 × 2
#>   splits              id        
#>   <list>              <chr>     
#> 1 <split [2969/1196]> Bootstrap1
#> 2 <split [2931/983]>  Bootstrap2
#> 3 <split [2896/1208]> Bootstrap3
#> 4 <split [2930/2930]> Apparent

源代码：R/boot.R

相关用法

注：本文由纯净天空筛选整理自Hannah Frick等大神的英文原创作品 Group Bootstraps。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。