जिस तरह से GAMs की फिटिंग के लिए इस दृष्टिकोण का आउटपुट है, वह अन्य पैरामीट्रिक शब्दों के साथ, स्मूथियों के रैखिक भागों को समूहित करने के लिए है। नोटिस Private
में पहली तालिका में एक प्रविष्टि है लेकिन दूसरी में प्रविष्टि खाली है। ऐसा इसलिए है क्योंकि Private
एक कड़ाई से पैरामीट्रिक शब्द है; यह एक कारक चर है और इसलिए एक अनुमानित पैरामीटर के साथ जुड़ा हुआ है जो प्रभाव का प्रतिनिधित्व करता है Private
। चिकनी शर्तों को दो प्रकार के प्रभाव में विभाजित किया जाता है, यह है कि यह आउटपुट आपको यह तय करने की अनुमति देता है कि क्या एक चिकनी अवधि है
- एक nonlinear प्रभाव : nonparametric तालिका को देखो और महत्व का आकलन करें। यदि महत्व है, एक चिकनी nonlinear प्रभाव के रूप में छोड़ दें। यदि महत्वहीन है, तो रैखिक प्रभाव पर विचार करें (2. नीचे)
- एक रैखिक प्रभाव : पैरामीट्रिक तालिका देखें और रैखिक प्रभाव के महत्व का आकलन करें। यदि महत्वपूर्ण हो तो आप मॉडल का वर्णन करने वाले सूत्र में शब्द को एक चिकनी
s(x)
-> x
में बदल सकते हैं । यदि तुच्छ आप पूरी तरह से मॉडल से शब्द छोड़ने पर विचार कर सकते हैं (लेकिन इसके साथ सावधान रहें --- यह एक मजबूत कथन के लिए है कि सही प्रभाव == 0 है)।
पैरामीट्रिक तालिका
यहां प्रविष्टियां ऐसी हैं जो आपको मिलेगी यदि आपने इसे एक रैखिक मॉडल फिट किया है और एनोवा तालिका की गणना की है, तो किसी भी संबंधित मॉडल के गुणांक के लिए कोई अनुमान नहीं दिखाया गया है। अनुमानित गुणांक और मानक त्रुटियों, और संबद्ध टी या वाल्ड परीक्षणों के बजाय, एफ परीक्षणों के साथ-साथ समझाया गया विचरण की मात्रा (वर्गों के रूप में) को दिखाया गया है। अन्य प्रतिगमन मॉडल के साथ जैसे कि कई कोवरिअट्स (या कोवरिएट्स के फ़ंक्शंस) के साथ फिट किया गया है, तालिका में प्रविष्टियाँ मॉडल में अन्य शर्तों / कार्यों पर सशर्त हैं।
गैरपारंपरिक तालिका
नॉनपामेट्रिक प्रभाव फिट की गई स्मूचर्स के नॉनलाइनियर भागों से संबंधित है। इन nonlinear प्रभावों में से गैर महत्वपूर्ण प्रभाव को छोड़कर महत्वपूर्ण है Expend
। के एक nonlinear प्रभाव के कुछ सबूत है Room.Board
। इसमें से प्रत्येक स्वतंत्रता की कुछ गैर-पैरामीट्रिक डिग्री ( Npar Df
) की संख्या के साथ जुड़ा हुआ है और वे प्रतिक्रिया में भिन्नता की मात्रा की व्याख्या करते हैं, जिनमें से राशि का मूल्यांकन एक एफ परीक्षण (डिफ़ॉल्ट रूप से, तर्क देखें test
) के माध्यम से किया जाता है ।
Nonparametric अनुभाग में इन परीक्षणों की व्याख्या एक nonlin संबंध के बजाय एक रैखिक संबंध की अशक्त परिकल्पना के परीक्षण के रूप में की जा सकती है ।
जिस तरह से आप इसकी व्याख्या कर सकते हैं वह यह है कि केवल Expend
वारंट को एक निर्मल प्रभाव के रूप में माना जा रहा है। अन्य चिकनी रेखीय पैरामीट्रिक शब्दों में परिवर्तित किया जा सकता है। आप यह जांचना चाहते हैं कि Room.Board
एक बार जब आप अन्य स्मूथ को रैखिक, पैरामीट्रिक शब्दों में परिवर्तित करते हैं, तो एक गैर-महत्वपूर्ण गैर-पैरामीट्रिक प्रभाव जारी रहता है; यह हो सकता है कि इसका प्रभाव Room.Board
थोड़ा अधपका हो लेकिन यह मॉडल में अन्य चिकनी शब्दों की उपस्थिति से प्रभावित हो रहा है।
हालाँकि, इसका बहुत कुछ इस तथ्य पर निर्भर हो सकता है कि बहुत से चिकनी को केवल 2 डिग्री स्वतंत्रता का उपयोग करने की अनुमति थी; 2 क्यों?
स्वचालित चिकनाई चयन
फिटिंग के लिए नए दृष्टिकोण GAMs स्वचालित चिकनाई चयन दृष्टिकोण के माध्यम से आपके लिए चिकनाई की डिग्री का चयन करेंगे जैसे कि साइमन वुड के दंडित दृष्टिकोण के रूप में अनुशंसित पैकेज mgcv में लागू किया गया है :
data(College, package = 'ISLR')
library('mgcv')
set.seed(1)
nr <- nrow(College)
train <- with(College, sample(nr, ceiling(nr/2)))
College.train <- College[train, ]
m <- mgcv::gam(Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate), data = College.train,
method = 'REML')
मॉडल सारांश अधिक संक्षिप्त है और सीधे एक लीनियर (पैरामीट्रिक) और नॉनलाइनियर (नॉनपरमेट्रिक) योगदान के बजाय एक पूरे के रूप में चिकनी फ़ंक्शन को मानता है:
> summary(m)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8544.1 217.2 39.330 <2e-16 ***
PrivateYes 2499.2 274.2 9.115 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.190 2.776 20.233 3.91e-11 ***
s(PhD) 2.433 3.116 3.037 0.029249 *
s(perc.alumni) 1.656 2.072 15.888 1.84e-07 ***
s(Expend) 4.528 5.592 19.614 < 2e-16 ***
s(Grad.Rate) 2.125 2.710 6.553 0.000452 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.2%
-REML = 3436.4 Scale est. = 3.3143e+06 n = 389
अब आउटपुट सुचारू शब्दों और पैरामीट्रिक शब्दों को अलग-अलग तालिकाओं में इकट्ठा करता है, बाद वाले को एक रेखीय मॉडल के समान अधिक परिचित आउटपुट मिलता है। पूरी तालिका में चिकनी शर्तें पूरी तरह से दिखाई जाती हैं। ये gam::gam
आपके द्वारा दिखाए गए मॉडल के समान परीक्षण नहीं हैं ; वे शून्य परिकल्पना के खिलाफ परीक्षण कर रहे हैं कि चिकनी प्रभाव एक सपाट, क्षैतिज रेखा, एक शून्य प्रभाव या शून्य प्रभाव दिखा रहा है। विकल्प यह है कि सच्चा गैर-प्रभाव शून्य से अलग है।
ध्यान दें कि ईडीएफ 2 को छोड़कर सभी बड़े हैं s(perc.alumni)
, यह सुझाव देते हुए कि gam::gam
मॉडल थोड़ा प्रतिबंधक हो सकता है।
तुलना के लिए फिट चिकनी द्वारा दिए गए हैं
plot(m, pages = 1, scheme = 1, all.terms = TRUE, seWithMean = TRUE)
जो पैदा करता है
पूरी तरह से मॉडल से बाहर सिकुड़ने के लिए स्वचालित सुगमता का चयन भी किया जा सकता है:
ऐसा करने के बाद, हम देखते हैं कि मॉडल फिट वास्तव में नहीं बदला है
> summary(m2)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8539.4 214.8 39.755 <2e-16 ***
PrivateYes 2505.7 270.4 9.266 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.260 9 6.338 3.95e-14 ***
s(PhD) 1.809 9 0.913 0.00611 **
s(perc.alumni) 1.544 9 3.542 8.21e-09 ***
s(Expend) 4.234 9 13.517 < 2e-16 ***
s(Grad.Rate) 2.114 9 2.209 1.01e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.1%
-REML = 3475.3 Scale est. = 3.3145e+06 n = 389
जब हम छींटों के रैखिक और अरेखीय भागों को सिकोड़ लेते हैं, तब भी सभी चिकनेपन का प्रभाव थोड़ा नॉनलाइनियर प्रभाव के रूप में प्रतीत होता है।
व्यक्तिगत रूप से, मुझे एमजीसीवी से आउटपुट को व्याख्या करने में आसान लगता है, और क्योंकि यह दिखाया गया है कि स्वचालित चिकनाई चयन विधियां एक रेखीय प्रभाव को फिट करेंगी यदि वह डेटा द्वारा समर्थित है।