इसलिए, यदि हम मानते हैं कि त्रुटि शब्द सामान्य रूप से वितरित है, तो इसका मतलब यह नहीं है कि प्रतिक्रिया भी सामान्य रूप से वितरित की जाती है?
दूर से भी नहीं। जिस तरह से मुझे यह याद है कि मॉडल के निर्धारक भाग पर अवशिष्ट सामान्य स्थिति है । यहाँ अभ्यास में जैसा दिखता है उसका प्रदर्शन है।
मैं बेतरतीब ढंग से कुछ डेटा उत्पन्न करके शुरू करता हूं। फिर मैं एक परिणाम को परिभाषित करता हूं जो कि भविष्यवक्ताओं का एक रैखिक कार्य है और एक मॉडल का अनुमान लगाता है।
N <- 100
x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)
x <- c(x1,x2)
plot(density(x, from=0, to=1))
y <- 1+10*x+rnorm(2*N, sd=1)
model<-lm(y~x)
आइए एक नजर डालते हैं कि ये अवशेष किस तरह के दिखते हैं। मुझे संदेह है कि उन्हें सामान्य रूप से वितरित किया जाना चाहिए, क्योंकि परिणाम y
में आईड सामान्य शोर था। और वास्तव में ऐसा ही है।
plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")
plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")
Y के वितरण की जाँच करना, हालाँकि, हम देख सकते हैं कि यह निश्चित रूप से सामान्य नहीं है! मैं एक ही माध्य और विचरण के साथ घनत्व फ़ंक्शन को समाप्त कर चुका हूं y
, लेकिन यह स्पष्ट रूप से एक भयानक फिट है!
इस मामले में ऐसा होने का कारण यह है कि इनपुट डेटा दूरस्थ रूप से सामान्य नहीं है। इस प्रतिगमन मॉडल के बारे में कुछ भी अवशेषों में छोड़कर सामान्यता की आवश्यकता होती है - स्वतंत्र चर में नहीं, और आश्रित चर में नहीं।