रेखीय प्रतिगमन में अवशिष्टों के वितरण की पुष्टि करना


17

मान लीजिए हम एक सरल रेखीय प्रतीपगमन भाग गया बच, बचाया ^ यू मैं और बच के वितरण की एक हिस्टोग्राम आकर्षित। यदि हमें कुछ ऐसा मिलता है, जो एक परिचित वितरण की तरह दिखता है, तो क्या हम मान सकते हैं कि हमारे त्रुटि शब्द में यह वितरण है? कहो, अगर हमें पता चला कि अवशिष्ट सामान्य वितरण से मिलते जुलते हैं, तो क्या इससे जनसंख्या में त्रुटि शब्द की सामान्यता को ग्रहण करने का कोई मतलब है? मुझे लगता है कि यह समझदार है, लेकिन इसे कैसे उचित ठहराया जा सकता है?y=β0+β1x+uui^


1
व्यक्तिगत रूप से मुझे हिस्टोग्राम (या कर्नेल घनत्व प्लॉट) से सामान्यता का आकलन करना कठिन लगता है। मैं उन पर "अंतिम" सबूत के रूप में कभी भरोसा नहीं करूंगा। क्यूक्यू प्लॉट इस उद्देश्य के लिए बहुत अधिक शक्तिशाली हैं।

जवाबों:


18

यह सब इस बात पर निर्भर करता है कि आप मापदंडों का अनुमान कैसे लगाते हैं । आमतौर पर, अनुमानक रैखिक होते हैं, जिसका अर्थ है कि अवशिष्ट डेटा के रैखिक कार्य हैं। जब त्रुटियों एक सामान्य वितरण है, तो ऐसा है, तो डेटा कर जिस कारण से तो बच कर यू मैं ( मैंuiu^ii अनुक्रमित डेटा मामलों ज़ाहिर है,)।

यह बोधगम्य (और तार्किक रूप से संभव) है कि जब अवशिष्ट लगभग एक सामान्य (अविभाज्य) वितरण के लिए दिखाई देते हैं, तो यह गैर-सामान्य से उत्पन्न होता है त्रुटियों के वितरण । हालांकि, अनुमानों की कम से कम चौकों (या अधिकतम संभावना) तकनीकों के साथ, अवशिष्टों की गणना करने के लिए रैखिक परिवर्तन इस मायने में "हल्का" है कि अवशेषों के (बहुभिन्नरूपी) वितरण की विशेषता फ़ंक्शन त्रुटियों के cf से अधिक भिन्न नहीं हो सकती है। ।

अभ्यास में, हम कभी नहीं की जरूरत है कि त्रुटियों जा वास्तव में , आम तौर पर वितरित तो यह एक महत्वहीन मुद्दा है। त्रुटियों के लिए अधिक से अधिक आयात यह है कि (1) उनकी अपेक्षाएं सभी शून्य के करीब होनी चाहिए; (२) उनका सहसंबंध कम होना चाहिए; और (3) इसमें बहुत कम संख्या में आउटलाइंग मान होने चाहिए। इनकी जाँच करने के लिए, हम विभिन्न अच्छाई-के-फिट परीक्षण, सहसंबंध परीक्षण, और परिशिष्ट के परीक्षण (क्रमशः) अवशेषों पर लागू करते हैं। सावधान प्रतिगमन मॉडलिंग में हमेशा ऐसे परीक्षण शामिल होते हैं (जिसमें अवशिष्ट के विभिन्न चित्रमय दृश्य शामिल होते हैं, जैसे कि आर की plotविधि द्वारा स्वचालित रूप से आपूर्ति की जाती है जब एक lmकक्षा में लागू किया जाता है )।

इस सवाल पर एक और तरीका है अनुकरण करके , परिकल्पित मॉडल से । यहाँ कुछ (न्यूनतम, एक बंद) Rकोड काम करने के लिए है:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

मामले n = 32 के लिए, अवशिष्ट के 99 सेटों की यह ओवरलाइड संभावना प्लॉट दिखाती है कि वे त्रुटि वितरण (जो मानक सामान्य है) के करीब हैं, क्योंकि वे समान रूप से संदर्भ रेखा y = x के लिए क्लीव करते हैंy=x :

N = 32 के लिए चित्र

केस n = 6 के लिए, प्रायिकता के प्लॉट में छोटे मीडियन ढलान संकेत देते हैं कि अवशिष्टों की त्रुटियों की तुलना में थोड़ा छोटा विचरण होता है, लेकिन कुल मिलाकर वे सामान्य रूप से वितरित होते हैं, क्योंकि उनमें से अधिकांश संदर्भ रेखा को पर्याप्त रूप से अच्छी तरह से ट्रैक करते हैं (दिए गए हैं) का छोटा मूल्य ):n

N = 6 के लिए चित्र


अगर आप अपना डेटा जनरेट करते हैं तो इसके rexp(n)स्थान पर अगर आप कहते हैं कि चीजें अधिक दिलचस्प होंगी rnorm(n)। अवशिष्टों के वितरण से आपको लगता है कि सामान्य से करीब हो जाएगा।
StasK

लेकिन अगर हम अवशिष्टों को सामान्य नहीं मानते हैं, तो परिणामी अनुमानित गुणांक के पी-मूल्य की गणना कैसे की जाती है? परीक्षण के आँकड़े क्या है?
चींटी

5

yi=xiβ+ϵi
y=Xβ+ϵ
e=(IH)y
H=X(XX)1X
ei(1hii)ϵihijϵj,jijihij2+hii2=hiiO(1/n) ϵiei(1hii)ϵi

1

यदि हमें कुछ ऐसा मिलता है, जो एक परिचित वितरण की तरह दिखता है, तो क्या हम मान सकते हैं कि हमारे त्रुटि शब्द में यह वितरण है?

मेरा तर्क है कि आप नहीं कर सकते हैं, क्योंकि आपके पास जो मॉडल ठीक है वह अमान्य है यदि त्रुटियों के बारे में सामान्य धारणा धारण नहीं करती है। (इस अर्थ में कि वितरण का आकार स्पष्ट रूप से गैर-सामान्य है जैसे कि कॉची आदि)

फ़ॉ पोइसन वितरित त्रुटियों को संभालने के बजाय सामान्य दृष्टिकोण, अवशिष्टों को सामान्य करने के लिए डेटा परिवर्तन के कुछ प्रकार जैसे लॉग वाई, या 1 / y प्रदर्शन करना है। (यह भी सही मॉडल रैखिक नहीं हो सकता है जो प्लॉट किए गए अवशेषों को अजीब तरह से वितरित करते हुए दिखाई देगा, भले ही वे वास्तव में सामान्य हों)

कहो, अगर हमें पता चला कि अवशिष्ट सामान्य वितरण से मिलते जुलते हैं, तो क्या इससे जनसंख्या में त्रुटि शब्द की सामान्यता को ग्रहण करने का कोई मतलब है?

जब आप किसी OLS प्रतिगमन को फिट करते हैं, तो आपने त्रुटियों की सामान्यता मान ली थी। चाहे आपको उस दावे के लिए तर्क देना हो, आपके काम के प्रकार और स्तर पर निर्भर करता है। (यह देखने के लिए अक्सर उपयोगी होता है कि क्षेत्र में स्वीकृत अभ्यास क्या है)

अब, यदि अवशिष्ट वास्तव में वितरित होते दिखाई देते हैं, तो आप अपने आप को पीठ पर रख सकते हैं, क्योंकि आप इसे अपनी पिछली मान्यताओं के अनुभवजन्य प्रमाण के रूप में उपयोग कर सकते हैं। :)


0

हाँ यह समझदार है। अवशिष्ट त्रुटि हैं। आप एक सामान्य क्यूक्यू प्लॉट को भी देख सकते हैं।


हाँ, सही है, "लेकिन इसे कैसे उचित ठहराया जा सकता है?" हमें क्या आश्वासन दिया कि अनुभवजन्य वितरणयू^मैं उस के लगभग होगा यू?
whuber

7
यह पांडित्य है लेकिन अवशिष्ट त्रुटि नहीं हैं। अवशिष्ट अनुमानित मॉडल से मनाया अंतर हैं,yमैं-एक्समैंβ^। त्रुटियां सच्चे मॉडल से अंतर हैंyमैं-एक्समैंβ
मैक्रो

@ वाउचर: मुझे नहीं पता कि यह क्या है, लेकिन मैं मान रहा हूं कि यह वही है जो नमूने को सही ठहराता है एक्स जनसंख्या का अनुमान लगाना एक्स, सही?
वेन

1
@Wayne, मेरा मानना ​​है कि "यह" प्रक्रिया को संदर्भित करता है "अगर हमें पता चला कि अवशिष्ट सामान्य वितरण से मिलते जुलते हैं, ... जनसंख्या में त्रुटि शब्दों की सामान्यता मानने के लिए।" मुझे लगता है कि आप मूल रूप से सही हैं, लेकिन सूक्ष्मता यह है कि अवशिष्ट नमूने का एक उत्पाद है और मापदंडों का अनुमान लगाने के लिए उपयोग की जाने वाली विधि है। मुझे यह एक विचारशील और दिलचस्प सवाल लगता है।
whuber

@ जब भी मुझे आपकी रुचि छात्र बनाम मानकीकृत बनाम कच्चे अवशेषों पर लेने में होगी।
मिशेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.