शायद यह समझना आसान होगा कि सभी 15 संभावित एलएम मॉडल को देखकर स्टेपवाइज रिग्रेशन कैसे किया जा रहा है।
यहाँ सभी 15 संयोजनों के लिए सूत्र उत्पन्न करने के लिए एक क्विक है।
library(leaps)
tmp<-regsubsets(mpg ~ wt + drat + disp + qsec, data=mtcars, nbest=1000, really.big=T, intercept=F)
all.mods <- summary(tmp)[[1]]
all.mods <- lapply(1:nrow(all.mods, function(x)as.formula(paste("mpg~", paste(names(which(all.mods[x,])), collapse="+"))))
head(all.mods)
[[1]]
mpg ~ drat
<environment: 0x0000000013a678d8>
[[2]]
mpg ~ qsec
<environment: 0x0000000013a6b3b0>
[[3]]
mpg ~ wt
<environment: 0x0000000013a6df28>
[[4]]
mpg ~ disp
<environment: 0x0000000013a70aa0>
[[5]]
mpg ~ wt + qsec
<environment: 0x0000000013a74540>
[[6]]
mpg ~ drat + disp
<environment: 0x0000000013a76f68>
प्रत्येक मॉडल के लिए AIC मान को इसके साथ निकाला जाता है:
all.lm<-lapply(all.mods, lm, mtcars)
sapply(all.lm, extractAIC)[2,]
[1] 97.98786 111.77605 73.21736 77.39732 63.90843 77.92493 74.15591 79.02978 91.24052 71.35572
[11] 63.89108 65.90826 78.68074 72.97352 65.62733
चलो अपने कदम-प्रतिगमन पर वापस जाएं। Lm के लिए extractAIC मान (mpg ~ wt + drat + disp + qsec) 65.63 (ऊपर की सूची में मॉडल 15 के बराबर) है।
यदि मॉडल डिस्प्रेशन (-disp) हटाता है, तो lm (mpg ~ wt + drat + qsec) 63.891 (या सूची में मॉडल 11) है।
यदि मॉडल कुछ भी नहीं निकालता है (कोई नहीं), तो एआईसी अभी भी 65.63 है
यदि मॉडल qsec (-qsec) को हटाता है, तो lm (mpg ~ wt + drat + disp) 65.908 (मॉडल 12) है।
आदि।
मूल रूप से सारांश आपके पूर्ण मॉडल से एक-टर्म के सभी संभावित स्टेपवाइज हटाने को प्रकट करता है और उन्हें आरोही क्रम में सूचीबद्ध करके extractAIC मान की तुलना करता है। चूंकि छोटा AIC मान TRUTH मॉडल से मिलता जुलता है, इसलिए स्टेप एक में (-disp) मॉडल को बनाए रखें।
प्रक्रिया को फिर से दोहराया जाता है, लेकिन प्रारंभिक बिंदु के रूप में बनाए रखा (-disp) मॉडल के साथ। मॉडल की तुलना की अनुमति देने के लिए शर्तों को या तो घटाया जाता है ("पीछे की ओर") या घटाया / जोड़ा ("दोनों")। चूँकि तुलना में सबसे कम AIC मूल्य अभी भी (-disp) मॉडल, प्रोसेस स्टॉप और परिणामी मॉडल दिए गए हैं।
अपनी क्वेरी के संबंध में: "स्टेप वाइज सिलेक्शन में फिर से + डिसप्ले को जोड़कर फंक्शन को प्राप्त करने की क्या कोशिश है?", इस मामले में, यह वास्तव में कुछ भी नहीं करता है, सभी 15 मॉडलों में सबसे अच्छा मॉडल 11 मॉडल है , यानी lm (mpg ~ wt + drat + qsec)।
हालांकि, बड़ी संख्या में भविष्यवाणियों के साथ जटिल मॉडलों में जिन्हें हल करने के लिए कई चरणों की आवश्यकता होती है, एक शब्द का वापस जोड़ना जो शुरू में हटा दिया गया था, वह शर्तों की तुलना करने का सबसे विस्तृत तरीका प्रदान करने के लिए महत्वपूर्ण है।
उम्मीद है कि इस तरह से मदद मिलेगी।