यह सब इस बात पर निर्भर करता है कि आप मापदंडों का अनुमान कैसे लगाते हैं । आमतौर पर, अनुमानक रैखिक होते हैं, जिसका अर्थ है कि अवशिष्ट डेटा के रैखिक कार्य हैं। जब त्रुटियों एक सामान्य वितरण है, तो ऐसा है, तो डेटा कर जिस कारण से तो बच कर यू मैं ( मैंuiu^ii अनुक्रमित डेटा मामलों ज़ाहिर है,)।
यह बोधगम्य (और तार्किक रूप से संभव) है कि जब अवशिष्ट लगभग एक सामान्य (अविभाज्य) वितरण के लिए दिखाई देते हैं, तो यह गैर-सामान्य से उत्पन्न होता है त्रुटियों के वितरण । हालांकि, अनुमानों की कम से कम चौकों (या अधिकतम संभावना) तकनीकों के साथ, अवशिष्टों की गणना करने के लिए रैखिक परिवर्तन इस मायने में "हल्का" है कि अवशेषों के (बहुभिन्नरूपी) वितरण की विशेषता फ़ंक्शन त्रुटियों के cf से अधिक भिन्न नहीं हो सकती है। ।
अभ्यास में, हम कभी नहीं की जरूरत है कि त्रुटियों जा वास्तव में , आम तौर पर वितरित तो यह एक महत्वहीन मुद्दा है। त्रुटियों के लिए अधिक से अधिक आयात यह है कि (1) उनकी अपेक्षाएं सभी शून्य के करीब होनी चाहिए; (२) उनका सहसंबंध कम होना चाहिए; और (3) इसमें बहुत कम संख्या में आउटलाइंग मान होने चाहिए। इनकी जाँच करने के लिए, हम विभिन्न अच्छाई-के-फिट परीक्षण, सहसंबंध परीक्षण, और परिशिष्ट के परीक्षण (क्रमशः) अवशेषों पर लागू करते हैं। सावधान प्रतिगमन मॉडलिंग में हमेशा ऐसे परीक्षण शामिल होते हैं (जिसमें अवशिष्ट के विभिन्न चित्रमय दृश्य शामिल होते हैं, जैसे कि आर की plot
विधि द्वारा स्वचालित रूप से आपूर्ति की जाती है जब एक lm
कक्षा में लागू किया जाता है )।
इस सवाल पर एक और तरीका है अनुकरण करके , परिकल्पित मॉडल से । यहाँ कुछ (न्यूनतम, एक बंद) R
कोड काम करने के लिए है:
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
मामले n = 32 के लिए, अवशिष्ट के 99 सेटों की यह ओवरलाइड संभावना प्लॉट दिखाती है कि वे त्रुटि वितरण (जो मानक सामान्य है) के करीब हैं, क्योंकि वे समान रूप से संदर्भ रेखा y = x के लिए क्लीव करते हैंy=x :
केस n = 6 के लिए, प्रायिकता के प्लॉट में छोटे मीडियन ढलान संकेत देते हैं कि अवशिष्टों की त्रुटियों की तुलना में थोड़ा छोटा विचरण होता है, लेकिन कुल मिलाकर वे सामान्य रूप से वितरित होते हैं, क्योंकि उनमें से अधिकांश संदर्भ रेखा को पर्याप्त रूप से अच्छी तरह से ट्रैक करते हैं (दिए गए हैं) का छोटा मूल्य ):n