R gam.selection 广义加性模型选择

R语言 gam.selection 位于 mgcv 包(package)。

说明

本页旨在提供有关如何选择 GAM 的更多信息。特别是，它简要概述了平滑度选择，然后讨论如何将其扩展到选择包含/排除项。还讨论了后一个问题的假设检验方法。

平滑度选择标准

给定由 gam 模型公式指定的模型结构，gam() 尝试使用预测误差标准或基于似然的方法为每个适用的模型项找到适当的平滑度。当尺度参数未知时，使用的预测误差标准是广义(近似)交叉验证(GCV 或 GACV)；当尺度参数已知时，使用 Un-Biased 风险估计器 (UBRE)。 UBRE 本质上是按比例缩放的 AIC(广义案例)或 Mallows' Cp(附加模型案例)。 Craven 和 Wahba (1979) 以及 Wahba (1990) 中介绍了 GCV 和 UBRE。或者，最大似然 (ML) 的 REML 可用于平滑度选择，通过将平滑分量视为随机效应(在这种情况下，每个平滑随机效应的方差分量将由尺度参数除以平滑参数给出 - 对于平滑如果有多个惩罚，就会有多个方差分量)。 gam 的 method 参数选择平滑度选择标准。

在数据较少的情况下，自动平滑度选择不太可能成功，特别是在要选择多个项的情况下。此外，GCV 和 UBRE/AIC 分数有时会显示局部最小值，从而捕获最小化算法。在非常低或非常高的平滑参数下，GCV/UBRE/AIC 分数随着平滑参数的变化而变得恒定，有时这些 ‘flat’ 区域可以通过一个小的 ‘lip’ 与较低分数的区域分开。这似乎是局部最小值的最常见形式，但通常可以通过避免极端平滑参数作为优化中的起始值以及在优化时避免平滑参数的大幅跳跃来避免。尽管如此，如果您对平滑参数估计值持怀疑态度，请尝试更改拟合方法(请参阅 gam 参数 method 和 optimizer )并查看估计值是否发生变化，或者尝试更改部分或全部平滑参数 ‘manually’ (gam 的参数 sp ，或 s 或 te 的 sp 参数)。

REML 和 ML 比其他标准更不容易出现局部极小值，因此可能更可取。

自动术语选择

GCV、AIC、REML 等未修改的平滑度选择通常不会从模型中删除平滑度。这是因为大多数平滑惩罚将(非零)函数的某些空间视为“完全平滑”，并且一旦某个项受到足够严重的惩罚，使其位于该空间中，进一步的惩罚不会改变它。

然而，修改平滑很简单，以便在严重惩罚下，它们被惩罚为零函数，从而从模型中“选择出来”。有两种方法。

第一种方法是使用附加收缩项来修改平滑惩罚。平滑类 cs.smooth 和 tprs.smooth(分别由 "cs" 和 "ts" 指定)具有包含较小收缩分量的平滑度惩罚，因此对于足够大的平滑参数，平滑度同样为零。这允许自动平滑参数选择方法有效地从模型中完全删除该项。惩罚的收缩部分被设置在一个通常对模型惩罚贡献可以忽略不计的水平，只有当根据传统惩罚项有效地“完全平滑”时才有效。

第二种方法保持原始平滑惩罚不变，但为每个平滑构造一个附加惩罚，仅惩罚原始惩罚的零空间中的函数(“完全平滑”函数)。因此，如果一项的所有平滑参数趋于无穷大，则该项将从模型中选择出来。后一种方法的计算成本更高，但具有可以自动应用于任何平滑项的优点。 gam 的 select 参数打开此方法。

事实上，在实现时，两种方法都通过eigen-decomposiong原始惩罚矩阵进行操作。在零空间上创建一个新的惩罚：它是具有与原始惩罚相同的特征向量的矩阵，但将原始正特征值设置为零，并将原始零特征值设置为正值。第一种方法只是将该惩罚的倍数添加到原始惩罚中，其中选择倍数以使新惩罚不能支配原始惩罚。第二种方法将新惩罚视为额外惩罚，具有自己的平滑参数。

当然，与所有模型选择方法一样，必须注意确保自动选择合理，并且必须决定声明术语 ‘negligible’ 的有效自由度。

交互式术语选择

一般来说，用于决定模型中包含哪些项的逻辑上最一致的方法是比较带有和不带有该项的模型的 GCV/UBRE/ML 分数(REML 分数不应用于比较具有不同固定效应结构的模型) 。当 UBRE 是平滑度选择方法时，这将给出与 AIC 进行比较的相同结果(本例中的 AIC 使用模型 EDF 代替通常的模型 DF)。同样，通过 GCV 分数和 AIC 进行比较很少会得出不同的答案。请注意，具有估计的 theta 参数的负二项式是一种特殊情况：由于使用了 theta 估计方案，GCV 分数不提供信息。更一般地，可以将具有平滑项的模型的分数与具有被适当参数项替换的平滑项的模型的分数进行比较。用参数项替换的候选项是估计自由度接近其最小可能值的平滑项。

还可以通过参考 summary.gam 提供的近似 p 值，并通过查看估计项的置信带包含零函数的程度来识别要删除的候选者。完全有可能以通常的方式使用 p 值执行向后选择：即通过从模型中顺序删除具有最高非显著性 p 值的单个项并重新拟合，直到所有项都显著。这与任何 GLM/LM 的逐步过程存在相同的问题，但需要注意的是 p 值只是近似值。如果采用这种方法，最好使用 ML 平滑度选择。

请注意，GCV 和 UBRE 不适合比较使用不同系列的模型：在这种情况下应使用 AIC。

注意事项/陈词滥调

正式的模型选择方法仅适用于在合理的模型之间进行选择。如果尝试从根本不适合数据的模型开始进行正式模型选择，则不太可能提供有意义的结果。

预先对适当的模型结构考虑得越多，模型选择可能就越成功。简单地从一个“一切都在”的非常灵活的模型开始，并希望自动选择能够找到正确的结构，通常不会成功。

例子

## an example of automatic model selection via null space penalization
library(mgcv)
set.seed(3);n<-200
dat <- gamSim(1,n=n,scale=.15,dist="poisson") ## simulate data
dat$x4 <- runif(n, 0, 1);dat$x5 <- runif(n, 0, 1) ## spurious

b<-gam(y~s(x0)+s(x1)+s(x2)+s(x3)+s(x4)+s(x5),data=dat,
         family=poisson,select=TRUE,method="REML")
summary(b)
plot(b,pages=1)

作者

Simon N. Wood simon.wood@r-project.org

参考

Marra, G. and S.N. Wood (2011) Practical variable selection for generalized additive models. Computational Statistics and Data Analysis 55,2372-2387.

Craven and Wahba (1979) Smoothing Noisy Data with Spline Functions. Numer. Math. 31:377-403

Venables and Ripley (1999) Modern Applied Statistics with S-PLUS

Wahba (1990) Spline Models of Observational Data. SIAM.

Wood, S.N. (2003) Thin plate regression splines. J.R.Statist.Soc.B 65(1):95-114

Wood, S.N. (2008) Fast stable direct fitting and smoothness selection for generalized additive models. J.R.Statist. Soc. B 70(3):495-518

Wood, S.N. (2011) Fast stable restricted maximum likelihood and marginal likelihood estimation of semiparametric generalized linear models. Journal of the Royal Statistical Society (B) 73(1):3-36

https://www.maths.ed.ac.uk/~swood34/

也可以看看

gam , step.gam

相关用法

注：本文由纯净天空筛选整理自R-devel大神的英文原创作品 Generalized Additive Model Selection。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。