当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R empinf 经验影响值


R语言 empinf 位于 boot 包(package)。

说明

此函数计算应用于数据集的统计量的经验影响值。它允许四种类型的计算,即无穷小折刀(使用数值微分)、通常的折刀估计、‘positive’折刀估计以及使用统计量的引导复制回归来估计经验影响值的方法。所有方法均可用于一个或多个样品。

用法

empinf(boot.out = NULL, data = NULL, statistic = NULL,
       type = NULL, stype = NULL ,index = 1, t = NULL,
       strata = rep(1, n), eps = 0.001, ...)

参数

boot.out

由函数 boot 创建的引导对象。如果type"reg",则需要此参数。对于任何其他类型,它是可选参数。如果在可选时包含它,则 datastatisticstypestrata 的值将从 boot.out 的组件中获取,并且直接传递给 empinf 的任何值都将被忽略。

data

包含需要经验影响值的数据的向量、矩阵或 DataFrame 。如果未提供boot.out,则它是必需的参数。如果提供了 boot.out,则 data 将设置为 boot.out$data,并且忽略提供的任何值。

statistic

需要经验影响值的统计数据。它必须是至少两个参数的函数,即数据集和权重、频率或指数的向量。第二个参数的性质由 stype 的值给出。它采用的任何其他参数都必须提供给empinf,并将原样传递给statistic。如果未提供boot.out,则这是必需的参数,否则其值取自boot.out,并且此处提供的任何值都将被忽略。

type

用于经验影响值的计算类型。可能的值type"inf"(无穷小折刀),"jack"(通常是折刀),"pos"(正折刀),以及"reg"(回归估计)。默认值取决于其他参数。如果t则提供默认值type"reg"boot.out应该存在,以便可以找到其频率阵列。它t不提供,那么如果stype"w",默认值type"inf";否则,如果boot.out存在默认值是"reg"。如果这些条件都不适用,则默认值为"jack"。请注意,这是一个错误type成为"reg"如果boot.out缺失或存在"inf"如果stype不是"w".

stype

一个字符变量,赋予 statistic 第二个参数的性质。它可以采用三个值:"w"(权重)、"f"(频率)或"i"(索引)。如果提供了 boot.out,则 stype 的值将设置为 boot.out$stype,并且此处提供的任何值都将被忽略。否则它是一个可选参数,默认为 "w" 。如果 type"inf"stype 必须是 "w"

index

一个整数,给出 statistic 输出中感兴趣的变量的位置。

t

长度为 boot.out$R 的向量,给出感兴趣的统计数据的引导复制。 t 仅当 typereg 时使用,默认为 boot.out$t[,index]

strata

指定多样本问题的层的整数向量或因子。如果提供 boot.out ,则 strata 的值将设置为 boot.out$strata 。否则它是一个可选参数,其默认值对应于单个样本情况。

eps

仅当 type"inf" 时才使用此参数。在这种情况下,用于数值微分的 epsilon 值将是 eps 除以 data 中的观测值数量。

...

statistic 采用的任何其他参数。每次调用时,它们都会原封不动地传递给statistic

细节

如果type"inf",则使用数值微分来近似经验影响值。这仅对于以加权形式写入的统计数据有意义(即 stype"w" )。如果type"jack",则返回经验影响的通常留一折刀估计。如果type"pos",则使用正(include-one-twice) 折刀值。如果type"reg",则必须提供引导对象。然后,回归方法通过在衍生它们的频率数组上回归 statistic 的引导复制来工作。自举频率数组是通过调用 boot.array 获得的。这些方法的更多细节在 Davison 和 Hinkley (1997) 的 2.7 节中给出。

经验影响值经常在非参数引导应用程序中使用。因此,许多其他函数在需要时调用empinf。它们的一些使用示例包括方差的非参数 delta 估计、BCa 区间以及查找统计数据的线性近似以用作控制变量。它们还用于对立引导重采样。

应用于 datastatistic 经验影响值的向量。这些值的顺序与数据中观察值的顺序相同。

警告

empinf 的所有参数都必须使用 name = value 约定传递。如果不遵循这一点,则可能会发生不可预测的错误。

例子

# The empirical influence values for the ratio of means in
# the city data.
ratio <- function(d, w) sum(d$x *w)/sum(d$u*w)
empinf(data = city, statistic = ratio)
city.boot <- boot(city, ratio, 499, stype="w")
empinf(boot.out = city.boot, type = "reg")

# A statistic that may be of interest in the difference of means
# problem is the t-statistic for testing equality of means.  In
# the bootstrap we get replicates of the difference of means and
# the variance of that statistic and then want to use this output
# to get the empirical influence values of the t-statistic.
grav1 <- gravity[as.numeric(gravity[,2]) >= 7,]
grav.fun <- function(dat, w) {
     strata <- tapply(dat[, 2], as.numeric(dat[, 2]))
     d <- dat[, 1]
     ns <- tabulate(strata)
     w <- w/tapply(w, strata, sum)[strata]
     mns <- as.vector(tapply(d * w, strata, sum)) # drop names
     mn2 <- tapply(d * d * w, strata, sum)
     s2hat <- sum((mn2 - mns^2)/ns)
     c(mns[2] - mns[1], s2hat)
}

grav.boot <- boot(grav1, grav.fun, R = 499, stype = "w",
                  strata = grav1[, 2])

# Since the statistic of interest is a function of the bootstrap
# statistics, we must calculate the bootstrap replicates and pass
# them to empinf using the t argument.
grav.z <- (grav.boot$t[,1]-grav.boot$t0[1])/sqrt(grav.boot$t[,2])
empinf(boot.out = grav.boot, t = grav.z)

参考

Davison, A.C. and Hinkley, D.V. (1997) Bootstrap Methods and Their Application. Cambridge University Press.

Efron, B. (1982) The Jackknife, the Bootstrap and Other Resampling Plans. CBMS-NSF Regional Conference Series in Applied Mathematics, 38, SIAM.

Fernholtz, L.T. (1983) von Mises Calculus for Statistical Functionals. Lecture Notes in Statistics, 19, Springer-Verlag.

也可以看看

boot , boot.array , boot.ci , control , jack.after.boot , linear.approx , var.linear

相关用法


注:本文由纯净天空筛选整理自R-devel大神的英文原创作品 Empirical Influence Values。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。