R gam.selection 廣義加性模型選擇

R語言 gam.selection 位於 mgcv 包(package)。

說明

本頁旨在提供有關如何選擇 GAM 的更多信息。特別是，它簡要概述了平滑度選擇，然後討論如何將其擴展到選擇包含/排除項。還討論了後一個問題的假設檢驗方法。

平滑度選擇標準

給定由 gam 模型公式指定的模型結構，gam() 嘗試使用預測誤差標準或基於似然的方法為每個適用的模型項找到適當的平滑度。當尺度參數未知時，使用的預測誤差標準是廣義(近似)交叉驗證(GCV 或 GACV)；當尺度參數已知時，使用 Un-Biased 風險估計器 (UBRE)。 UBRE 本質上是按比例縮放的 AIC(廣義案例)或 Mallows' Cp(附加模型案例)。 Craven 和 Wahba (1979) 以及 Wahba (1990) 中介紹了 GCV 和 UBRE。或者，最大似然 (ML) 的 REML 可用於平滑度選擇，通過將平滑分量視為隨機效應(在這種情況下，每個平滑隨機效應的方差分量將由尺度參數除以平滑參數給出 - 對於平滑如果有多個懲罰，就會有多個方差分量)。 gam 的 method 參數選擇平滑度選擇標準。

在數據較少的情況下，自動平滑度選擇不太可能成功，特別是在要選擇多個項的情況下。此外，GCV 和 UBRE/AIC 分數有時會顯示局部最小值，從而捕獲最小化算法。在非常低或非常高的平滑參數下，GCV/UBRE/AIC 分數隨著平滑參數的變化而變得恒定，有時這些 ‘flat’ 區域可以通過一個小的 ‘lip’ 與較低分數的區域分開。這似乎是局部最小值的最常見形式，但通常可以通過避免極端平滑參數作為優化中的起始值以及在優化時避免平滑參數的大幅跳躍來避免。盡管如此，如果您對平滑參數估計值持懷疑態度，請嘗試更改擬合方法(請參閱 gam 參數 method 和 optimizer )並查看估計值是否發生變化，或者嘗試更改部分或全部平滑參數 ‘manually’ (gam 的參數 sp ，或 s 或 te 的 sp 參數)。

REML 和 ML 比其他標準更不容易出現局部極小值，因此可能更可取。

自動術語選擇

GCV、AIC、REML 等未修改的平滑度選擇通常不會從模型中刪除平滑度。這是因為大多數平滑懲罰將(非零)函數的某些空間視為“完全平滑”，並且一旦某個項受到足夠嚴重的懲罰，使其位於該空間中，進一步的懲罰不會改變它。

然而，修改平滑很簡單，以便在嚴重懲罰下，它們被懲罰為零函數，從而從模型中“選擇出來”。有兩種方法。

第一種方法是使用附加收縮項來修改平滑懲罰。平滑類 cs.smooth 和 tprs.smooth(分別由 "cs" 和 "ts" 指定)具有包含較小收縮分量的平滑度懲罰，因此對於足夠大的平滑參數，平滑度同樣為零。這允許自動平滑參數選擇方法有效地從模型中完全刪除該項。懲罰的收縮部分被設置在一個通常對模型懲罰貢獻可以忽略不計的水平，隻有當根據傳統懲罰項有效地“完全平滑”時才有效。

第二種方法保持原始平滑懲罰不變，但為每個平滑構造一個附加懲罰，僅懲罰原始懲罰的零空間中的函數(“完全平滑”函數)。因此，如果一項的所有平滑參數趨於無窮大，則該項將從模型中選擇出來。後一種方法的計算成本更高，但具有可以自動應用於任何平滑項的優點。 gam 的 select 參數打開此方法。

事實上，在實現時，兩種方法都通過eigen-decomposiong原始懲罰矩陣進行操作。在零空間上創建一個新的懲罰：它是具有與原始懲罰相同的特征向量的矩陣，但將原始正特征值設置為零，並將原始零特征值設置為正值。第一種方法隻是將該懲罰的倍數添加到原始懲罰中，其中選擇倍數以使新懲罰不能支配原始懲罰。第二種方法將新懲罰視為額外懲罰，具有自己的平滑參數。

當然，與所有模型選擇方法一樣，必須注意確保自動選擇合理，並且必須決定聲明術語 ‘negligible’ 的有效自由度。

交互式術語選擇

一般來說，用於決定模型中包含哪些項的邏輯上最一致的方法是比較帶有和不帶有該項的模型的 GCV/UBRE/ML 分數(REML 分數不應用於比較具有不同固定效應結構的模型) 。當 UBRE 是平滑度選擇方法時，這將給出與 AIC 進行比較的相同結果(本例中的 AIC 使用模型 EDF 代替通常的模型 DF)。同樣，通過 GCV 分數和 AIC 進行比較很少會得出不同的答案。請注意，具有估計的 theta 參數的負二項式是一種特殊情況：由於使用了 theta 估計方案，GCV 分數不提供信息。更一般地，可以將具有平滑項的模型的分數與具有被適當參數項替換的平滑項的模型的分數進行比較。用參數項替換的候選項是估計自由度接近其最小可能值的平滑項。

還可以通過參考 summary.gam 提供的近似 p 值，並通過查看估計項的置信帶包含零函數的程度來識別要刪除的候選者。完全有可能以通常的方式使用 p 值執行向後選擇：即通過從模型中順序刪除具有最高非顯著性 p 值的單個項並重新擬合，直到所有項都顯著。這與任何 GLM/LM 的逐步過程存在相同的問題，但需要注意的是 p 值隻是近似值。如果采用這種方法，最好使用 ML 平滑度選擇。

請注意，GCV 和 UBRE 不適合比較使用不同係列的模型：在這種情況下應使用 AIC。

注意事項/陳詞濫調

正式的模型選擇方法僅適用於在合理的模型之間進行選擇。如果嘗試從根本不適合數據的模型開始進行正式模型選擇，則不太可能提供有意義的結果。

預先對適當的模型結構考慮得越多，模型選擇可能就越成功。簡單地從一個“一切都在”的非常靈活的模型開始，並希望自動選擇能夠找到正確的結構，通常不會成功。

例子

## an example of automatic model selection via null space penalization
library(mgcv)
set.seed(3);n<-200
dat <- gamSim(1,n=n,scale=.15,dist="poisson") ## simulate data
dat$x4 <- runif(n, 0, 1);dat$x5 <- runif(n, 0, 1) ## spurious

b<-gam(y~s(x0)+s(x1)+s(x2)+s(x3)+s(x4)+s(x5),data=dat,
         family=poisson,select=TRUE,method="REML")
summary(b)
plot(b,pages=1)

作者

Simon N. Wood simon.wood@r-project.org

參考

Marra, G. and S.N. Wood (2011) Practical variable selection for generalized additive models. Computational Statistics and Data Analysis 55,2372-2387.

Craven and Wahba (1979) Smoothing Noisy Data with Spline Functions. Numer. Math. 31:377-403

Venables and Ripley (1999) Modern Applied Statistics with S-PLUS

Wahba (1990) Spline Models of Observational Data. SIAM.

Wood, S.N. (2003) Thin plate regression splines. J.R.Statist.Soc.B 65(1):95-114

Wood, S.N. (2008) Fast stable direct fitting and smoothness selection for generalized additive models. J.R.Statist. Soc. B 70(3):495-518

Wood, S.N. (2011) Fast stable restricted maximum likelihood and marginal likelihood estimation of semiparametric generalized linear models. Journal of the Royal Statistical Society (B) 73(1):3-36

https://www.maths.ed.ac.uk/~swood34/

也可以看看

gam , step.gam

相關用法

注：本文由純淨天空篩選整理自R-devel大神的英文原創作品 Generalized Additive Model Selection。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。