गॉसियन त्रुटियों वाले सरल रैखिक प्रतिगमन एक बहुत अच्छी विशेषता है जो सामान्यीकृत रैखिक मॉडल के लिए सामान्यीकरण नहीं करता है।
सामान्यीकृत रैखिक मॉडल में, प्रतिक्रिया कुछ दिए गए वितरण का अर्थ है । रैखिक प्रतिगमन इस पैटर्न का अनुसरण करता है; अगर हमारे पास है
yi=β0+β1xi+ϵi
साथ ϵi∼N(0,σ)
तो हमारे पास भी है
yi∼N(β0+β1xi,σ)
ठीक है, इसलिए प्रतिक्रिया सामान्यीकृत रैखिक मॉडल के लिए दिए गए वितरण का अनुसरण करती है, लेकिन रैखिक प्रतिगमन के लिए हमारे पास यह भी है कि अवशिष्ट एक गाऊसी वितरण का पालन करते हैं। इस बात पर जोर क्यों दिया जाता है कि सामान्य नियम न होने पर अवशिष्ट सामान्य होते हैं? खैर, क्योंकि यह बहुत अधिक उपयोगी नियम है। अवशिष्टों की सामान्यता के बारे में सोचने के बारे में अच्छी बात यह है कि यह जांच करना बहुत आसान है। यदि हम अनुमानित साधनों को घटाते हैं, तो सभी अवशिष्टों में लगभग एक ही विचरण होना चाहिए और लगभग एक ही अर्थ (0) होगा और सामान्य रूप से वितरित किया जाएगा (ध्यान दें: मैं कहता हूं "मोटे तौर पर" क्योंकि अगर हमारे पास सही अनुमान नहीं है प्रतिगमन पैरामीटर, जो निश्चित रूप से हम नहीं करते हैं, ϵ i के अनुमानों का विचरणϵi की श्रेणियों के आधार पर अलग-अलग संस्करण होंगे । लेकिन उम्मीद है कि अनुमानों में पर्याप्त सटीकता है कि यह आग्नेय है!)।x
दूसरी ओर, अनपेक्षित की स्थिति को देखते हुए, हम वास्तव में नहीं बता सकते हैं कि क्या वे सामान्य हैं यदि वे सभी अलग-अलग साधन हैं। उदाहरण के लिए, निम्नलिखित मॉडल पर विचार करें:yi
yi=0+2×xi+ϵi
साथ और एक्स मैं ~ Bernoulli ( पी = 0.5 )ϵi∼N(0,0.2)xi∼Bernoulli(p=0.5)
फिर अत्यधिक बायोमॉडल होगा, लेकिन रैखिक प्रतिगमन की धारणाओं का उल्लंघन नहीं करता है! दूसरी ओर, अवशिष्ट लगभग सामान्य वितरण का पालन करेंगे।yi
यहाँ कुछ R
कोड चित्रण के लिए है।
x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')