क्यों रैखिक प्रतिगमन पर अवशिष्ट लेकिन सामान्यीकृत रैखिक मॉडल पर धारणा है प्रतिक्रिया पर धारणाएं हैं?


14

क्यों रैखिक प्रतिगमन और सामान्यीकृत मॉडल में असंगत धारणाएं हैं?

  • रैखिक प्रतिगमन में, हम मानते हैं कि अवशिष्ट गॉसियन के रूप में आता है
  • अन्य रिग्रेशन (लॉजिस्टिक रिग्रेशन, जहर रिग्रेशन) में, हम मानते हैं कि प्रतिक्रिया कुछ वितरण (द्विपद, जहर आदि) का निर्माण करती है।

कभी-कभी अवशिष्ट और दूसरी बार प्रतिक्रिया पर क्यों मान लेते हैं? क्या इसलिए कि हम विभिन्न गुणों को प्राप्त करना चाहते हैं?


संपादित करें: मुझे लगता है कि mark999 के शो दो रूपों के बराबर हैं। हालाँकि, मुझे iid पर एक अतिरिक्त संदेह है:

मेरे अन्य quesiton, क्या लॉजिस्टिक रिग्रेशन पर आईआईडी की धारणा है? सामान्यीकृत रेखीय मॉडल से पता चलता है कि आईआईडी धारणा नहीं है (स्वतंत्र लेकिन समान नहीं)

क्या यह सच है कि रेखीय प्रतिगमन के लिए, यदि हम अवशिष्ट पर धारणा बनाते हैं, तो हमारे पास आईआईडी होगी, लेकिन यदि हम प्रतिक्रिया पर धारणा बनाते हैं, तो हमारे पास स्वतंत्र होंगे लेकिन समान नमूने नहीं होंगे (अलग-अलग साथ अलग-अलग गॉसियन μ)?


जवाबों:


12

गॉसियन त्रुटियों वाले सरल रैखिक प्रतिगमन एक बहुत अच्छी विशेषता है जो सामान्यीकृत रैखिक मॉडल के लिए सामान्यीकरण नहीं करता है।

सामान्यीकृत रैखिक मॉडल में, प्रतिक्रिया कुछ दिए गए वितरण का अर्थ है । रैखिक प्रतिगमन इस पैटर्न का अनुसरण करता है; अगर हमारे पास है

yi=β0+β1xi+ϵi

साथ ϵiN(0,σ)

तो हमारे पास भी है

yiN(β0+β1xi,σ)

ठीक है, इसलिए प्रतिक्रिया सामान्यीकृत रैखिक मॉडल के लिए दिए गए वितरण का अनुसरण करती है, लेकिन रैखिक प्रतिगमन के लिए हमारे पास यह भी है कि अवशिष्ट एक गाऊसी वितरण का पालन करते हैं। इस बात पर जोर क्यों दिया जाता है कि सामान्य नियम न होने पर अवशिष्ट सामान्य होते हैं? खैर, क्योंकि यह बहुत अधिक उपयोगी नियम है। अवशिष्टों की सामान्यता के बारे में सोचने के बारे में अच्छी बात यह है कि यह जांच करना बहुत आसान है। यदि हम अनुमानित साधनों को घटाते हैं, तो सभी अवशिष्टों में लगभग एक ही विचरण होना चाहिए और लगभग एक ही अर्थ (0) होगा और सामान्य रूप से वितरित किया जाएगा (ध्यान दें: मैं कहता हूं "मोटे तौर पर" क्योंकि अगर हमारे पास सही अनुमान नहीं है प्रतिगमन पैरामीटर, जो निश्चित रूप से हम नहीं करते हैं, ϵ i के अनुमानों का विचरणϵi की श्रेणियों के आधार पर अलग-अलग संस्करण होंगे । लेकिन उम्मीद है कि अनुमानों में पर्याप्त सटीकता है कि यह आग्नेय है!)।x

दूसरी ओर, अनपेक्षित की स्थिति को देखते हुए, हम वास्तव में नहीं बता सकते हैं कि क्या वे सामान्य हैं यदि वे सभी अलग-अलग साधन हैं। उदाहरण के लिए, निम्नलिखित मॉडल पर विचार करें:yi

yi=0+2×xi+ϵi

साथ और एक्स मैं ~ Bernoulli ( पी = 0.5 )ϵiN(0,0.2)xiBernoulli(p=0.5)

फिर अत्यधिक बायोमॉडल होगा, लेकिन रैखिक प्रतिगमन की धारणाओं का उल्लंघन नहीं करता है! दूसरी ओर, अवशिष्ट लगभग सामान्य वितरण का पालन करेंगे।yi

यहाँ कुछ Rकोड चित्रण के लिए है।

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

हिस्टोग्राम


yi=1+2×xi+ϵi

3
@ hxd1011: हाँ, यह सीमांत वितरण (स्पष्ट रूप से सामान्य नहीं) और सशर्त वितरण x के बीच का अंतर है (हम जानते हैं कि यह सामान्य है क्योंकि हमने इसकी नकल की है!)। सशर्त और सीमांत वितरण के बीच अंतर के बारे में नहीं सोचना एक अत्यंत सामान्य गलती है।
क्लिफ एबी

14

i=1,,n

Yi=β0+β1Xi1++βkXik+ϵi,
ϵiσ2Xi1,,XikYiβ0+β1Xi1++βkXikσ2

Xi1,,Xikβ0+β1Xi1++βkXik

सामान्य त्रुटियों के साथ सामान्य कई रैखिक प्रतिगमन मॉडल सामान्य प्रतिक्रिया और पहचान लिंक के साथ एक सामान्यीकृत रैखिक मॉडल है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.