मैं सरल रैखिक प्रतिगमन विश्लेषण में एनोवा एफ-टेस्ट के पीछे के तर्क को समझने की कोशिश कर रहा हूं। मेरे पास प्रश्न इस प्रकार है। जब F मान, यानी
MSR/MSE
बड़ा है तो हम मॉडल को महत्वपूर्ण मानते हैं। इसके पीछे क्या तर्क है?
मैं सरल रैखिक प्रतिगमन विश्लेषण में एनोवा एफ-टेस्ट के पीछे के तर्क को समझने की कोशिश कर रहा हूं। मेरे पास प्रश्न इस प्रकार है। जब F मान, यानी
MSR/MSE
बड़ा है तो हम मॉडल को महत्वपूर्ण मानते हैं। इसके पीछे क्या तर्क है?
जवाबों:
सामान्य स्थिति में, आप केवल एक कारक (सरल प्रतिगमन) हैं तो, कहते हैं कि , एफ -Test आप शामिल है कि क्या कहता है एक्स 1 विचरण में मनाया का एक बड़ा हिस्सा व्याख्या नहीं करता Y अशक्त मॉडल की तुलना में (अवरोधन केवल) । विचार तब परीक्षण करने के लिए होता है यदि जोड़ा गया विचरण (कुल विचरण, TSS, माइनस अवशिष्ट विचलन, RSS) बड़ा होता है जिसे "महत्वपूर्ण मात्रा" माना जाता है। हम यहां एक पूर्वानुमान, या व्याख्यात्मक चर के साथ एक मॉडल की तुलना एक आधार रेखा से कर रहे हैं, जो सिर्फ "शोर" (भव्य मतलब के अलावा कुछ भी नहीं) है।
इसी तरह, आप कई प्रतिगमन सेटिंग में एक स्टेटिस्टिक की गणना कर सकते हैं : इस मामले में, यह मॉडल में शामिल सभी भविष्यवक्ताओं के परीक्षण की मात्रा है , जो एचटी फ्रेमवर्क के तहत इसका मतलब है कि हमें आश्चर्य है कि उनमें से कोई भी प्रतिक्रिया की भविष्यवाणी करने में उपयोगी है चर। यही कारण है कि आप उन स्थितियों से सामना कर सकते हैं जहां पूरे मॉडल के लिए -टेस्ट महत्वपूर्ण है, जबकि प्रत्येक प्रतिगमन गुणांक से संबंधित कुछ या वेस्ट नहीं हैं।
की तरह आंकड़ा दिखता है
जहां मॉडल मापदंडों की संख्या है और n टिप्पणियों की संख्या है। इस मात्रा को एक एफ पी - 1 , एन - पी वितरण के लिए एक महत्वपूर्ण या पी के लिए भेजा जाना चाहिए । यह सरल प्रतिगमन मॉडल के लिए भी लागू होता है, और स्पष्ट रूप से शास्त्रीय एनोवा फ्रेमवर्क के साथ कुछ सादृश्य होता है।
पक्षीय लेख। जब आपके पास एक से अधिक भविष्यवाणियां होती हैं, तो आप आश्चर्यचकित हो सकते हैं कि क्या केवल उन भविष्यवक्ताओं के सबसेट पर विचार करने से मॉडल की गुणवत्ता "कम" हो जाती है। यह एक ऐसी स्थिति से मेल खाता है जहां हम नेस्टेड मॉडल पर विचार करते हैं । यह ऊपर वाले के समान ही स्थिति है, जहां हम दिए गए प्रतिगमन मॉडल की तुलना एक अशक्त मॉडल (कोई भविष्यवक्ता शामिल नहीं) के साथ करते हैं। स्पष्ट रूप से विचरण में कमी का आकलन करने के लिए, हम दोनों मॉडल से वर्गों (आरएसएस) के अवशिष्ट योग की तुलना कर सकते हैं (जो कि मॉडल में मौजूद भविष्यवक्ताओं के प्रभाव के लिए आपके खाते में एक बार अस्पष्टीकृत छोड़ दिया गया है)। चलो और एम 1 बेस मॉडल निरूपित (साथ पीपैरामीटर) और एक अतिरिक्त भविष्यवक्ता ( पैरामीटर) वाला मॉडल , अगर RSS M 1 - RSS M 0 छोटा है, तो हम इस पर विचार करेंगे कि छोटा मॉडल जितना बड़ा होता है उतना अच्छा प्रदर्शन करता है। ऐसे SS के अनुपात का उपयोग करने के लिए एक अच्छा आँकड़ा, (उनकी स्वतंत्रता की डिग्री ( अंशांक के लिए p - q , और n - pहर के लिए)। जैसा कि पहले ही कहा गया है, यह दिखाया जा सकता है कि यह मात्रा स्वतंत्रता की पी - क्यू और एन - पी डिग्री के साथ एक (या फिशर-स्नेडेकोर) वितरण के बाद है। यदि मनाया गया F किसी दिए गए α (आमतौर पर, α = 0.05 ) पर संबंधित F क्वांटाइल से बड़ा है , तो हम यह निष्कर्ष निकालेंगे कि बड़ा मॉडल "बेहतर काम" करता है। (इसका कोई अर्थ यह नहीं है कि व्यावहारिक दृष्टिकोण से मॉडल सही है!)
उपरोक्त विचार का एक सामान्यीकरण संभावना अनुपात परीक्षण है ।
यदि आप R का उपयोग कर रहे हैं, तो आप इस तरह की उपरोक्त अवधारणाओं के साथ खेल सकते हैं:
df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df)) # "ANOVA view"
summary(lm(y ~ V1, df)) # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0) # test of V2
anova()
आर में फ़ंक्शन मॉडल में प्रत्येक भविष्यवक्ता के लिए एक व्यक्तिगत पंक्ति देता है। उदाहरण के लिए, anova(lm0)
ऊपर के लिए एक पंक्ति रिटर्न V1
, V2
और Residuals
(और कोई कुल)। जैसे, हमें इस मॉडल के लिए दो एफ * आँकड़े मिलते हैं। यह एनोवा तालिका में बताई गई एफ * स्टेटिस्टिक की व्याख्या को कैसे बदलता है?
anova()
जीएलएम तुलना के लिए उपयोग करता हूं । जब किसी ऑब्जेक्ट lm
या aov
ऑब्जेक्ट पर लागू किया जाता है , तो यह मॉडल में प्रत्येक शब्द के लिए अलग-अलग प्रभाव (एसएस) प्रदर्शित करता है और टीएसएस नहीं दिखाता है। (मैं इसे दूसरे तरीके से लागू करता था, अर्थात्, एनोवा के साथ फिटिंग के बाद aov()
, मैं summary.lm()
उपचार विरोधाभासों का विचार प्राप्त करने के लिए उपयोग कर सकता हूं ।) हालांकि , विशेष रूप से अनुक्रमिक फिटिंग से संबंधित summary.lm()
और बीच के सूक्ष्म मुद्दे हैं summary.aov()
।