प्रतिगमन में त्रुटियों पर मान्यताओं का परीक्षण करने के लिए हम अवशिष्टों का उपयोग क्यों करते हैं?


10

मान लीजिए कि हमारे पास एक मॉडल है Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi

प्रतिगमन में कई तरह की धारणाएँ हैं, जैसे कि त्रुटियाँ ϵiसामान्य रूप से औसत शून्य और निरंतर विचरण के साथ वितरित किया जाना चाहिए। मुझे अवशिष्टों की सामान्यता के परीक्षण के लिए एक सामान्य क्यूक्यू भूखंड का उपयोग करके इन मान्यताओं की जांच करना सिखाया गया हैei=YiY^i और एक अवशिष्ट बनाम फिट प्लॉट की जाँच करने के लिए कि अवशिष्ट लगातार विचरण के साथ शून्य के आसपास भिन्न होते हैं।

हालांकि, ये परीक्षण सभी अवशिष्टों पर हैं, त्रुटियों के नहीं।

जो मैं समझता हूं, त्रुटियों को उनके 'सही' माध्य मान से प्रत्येक अवलोकन के विचलन के रूप में परिभाषित किया गया है। तो, हम लिख सकते हैंϵi=YiE[Yi]। ये त्रुटियां हमारे द्वारा नहीं देखी जा सकती हैं। *

मेरा सवाल यह है: त्रुटियों की नकल करने में अवशिष्ट कितना अच्छा काम करते हैं?

यदि अनुमान अवशिष्टों पर संतुष्ट दिखाई देते हैं, तो क्या इसका मतलब यह है कि वे त्रुटियों पर भी संतुष्ट हैं? क्या मान्यताओं का परीक्षण करने के लिए अन्य (बेहतर) तरीके हैं, जैसे मॉडल को एक परीक्षण डाटासेट में फिट करना और वहां से अवशेष प्राप्त करना?


* इसके अलावा, क्या यह आवश्यक नहीं है कि मॉडल सही ढंग से निर्दिष्ट हो ? यही है, कि प्रतिक्रिया का वास्तव में भविष्यवक्ताओं के साथ एक संबंध हैX1,X2, मॉडल द्वारा निर्दिष्ट तरीके से आदि।

अगर हम कुछ भविष्यवक्ताओं को याद कर रहे हैं (कहते हैं, Xk+1 to Xp), फिर अपेक्षा E[Yi]=β0+β1Xi1+β2Xi2++βkXik सही अर्थ भी नहीं होगा, और एक गलत मॉडल पर आगे का विश्लेषण व्यर्थ लगता है।

हम कैसे जांचें कि क्या मॉडल एक सही है?

जवाबों:


9

अवशिष्ट त्रुटि शर्तों के हमारे अनुमान हैं

इस प्रश्न का संक्षिप्त उत्तर अपेक्षाकृत सरल है: एक प्रतिगमन मॉडल में मान्यताओं में त्रुटि शर्तों के व्यवहार के बारे में धारणाएं हैं, और अवशिष्ट त्रुटि शब्दों के हमारे अनुमान हैं। वास्तव में , अवशिष्ट अवशिष्टों के व्यवहार की जांच हमें बताती है कि त्रुटि शर्तों के बारे में मान्यताएँ प्रशंसनीय हैं या नहीं।

तर्क की इस सामान्य रेखा को और अधिक विस्तार से समझने के लिए, यह एक मानक प्रतिगमन मॉडल में अवशिष्टों के व्यवहार की विस्तार से जांच करने में मदद करता है। स्वतंत्र होमोसकेस्टिक सामान्य त्रुटि शर्तों के साथ एक मानक कई रैखिक प्रतिगमन के तहत अवशिष्ट वेक्टर का वितरण ज्ञात है, जो आपको प्रतिगमन मॉडल में अंतर्निहित वितरण संबंधी मान्यताओं का परीक्षण करने की अनुमति देता है। मूल विचार यह है कि आप प्रतिगमन मान्यताओं के तहत अवशिष्ट वेक्टर के वितरण का पता लगाते हैं, और फिर यह जांचते हैं कि अवशिष्ट मान इस सैद्धांतिक वितरण से क्या मेल खाते हैं। सैद्धांतिक अवशिष्ट वितरण से विचलन यह दर्शाता है कि त्रुटि के संदर्भ में अंतर्निहित ग्रहण वितरण कुछ मामलों में गलत है।

यदि आप अंतर्निहित त्रुटि वितरण का उपयोग करते हैं ϵiIID N(0,σ2) एक मानक प्रतिगमन मॉडल के लिए और आप गुणांक के लिए ओएलएस आकलन का उपयोग करते हैं, फिर अवशिष्ट के वितरण को बहुभिन्नरूपी सामान्य वितरण दिखाया जा सकता है:

r=(Ih)ϵN(0,σ2(Ih)),

कहाँ पे h=x(xTx)1xTहै टोपी मैट्रिक्स प्रतिगमन के लिए। अवशिष्ट वेक्टर त्रुटि वेक्टर की नकल करता है, लेकिन विचरण मैट्रिक्स में अतिरिक्त गुणक शब्द हैIh। प्रतिगमन मान्यताओं का परीक्षण करने के लिए हम छात्र अवशिष्ट का उपयोग करते हैं, जिसमें सीमांत टी-वितरण होता है:

siriσ^Ext(1li)T(dfRes1).

(यह सूत्र बाहरी रूप से छात्र के अवशेषों के लिए है, जहाँ विचरण अनुमानक परिवर्तनशील मानों को छोड़ देता है। मान) li=hi,iउत्तोलन मूल्य हैं, जो हैट मैट्रिक्स में विकर्ण मान हैं । छात्र अवशिष्ट स्वतंत्र नहीं हैं, लेकिन यदिnबड़ा है, वे स्वतंत्र के करीब हैं। इसका अर्थ है कि सीमांत वितरण एक साधारण ज्ञात वितरण है लेकिन संयुक्त वितरण जटिल है।) अब, यदि सीमाlimn(xTx)/n=Δ मौजूद है, तो यह दिखाया जा सकता है कि गुणांक अनुमानक सही प्रतिगमन गुणांक के निरंतर अनुमानक हैं, और अवशिष्ट वास्तविक त्रुटि शर्तों के निरंतर अनुमानक हैं।

अनिवार्य रूप से, इसका मतलब है कि आप छात्र के अवशिष्टों की तुलना टी-वितरण से करते हुए त्रुटि के लिए अंतर्निहित वितरण संबंधी मान्यताओं का परीक्षण करते हैं। त्रुटि वितरण के प्रत्येक अंतर्निहित गुण (रैखिकता, समरूपता, असंबद्ध त्रुटियां, सामान्यता) का परीक्षण छात्र के अवशेषों के विकृति के अनुरूप गुणों का उपयोग करके किया जा सकता है। यदि मॉडल सही ढंग से निर्दिष्ट है, तो बड़े के लिएn अवशिष्ट वास्तविक त्रुटि शर्तों के करीब होना चाहिए, और उनके पास एक समान वितरण प्रपत्र है।

प्रतिगमन मॉडल से एक व्याख्यात्मक चर का प्रवेश गुणांक अनुमानकों में छोड़े गए चर पूर्वाग्रह की ओर जाता है और यह अवशिष्ट वितरण को प्रभावित करता है। अवशिष्ट वेक्टर के माध्य और विचरण दोनों लोप किए गए चर से प्रभावित होते हैं। यदि प्रतिगमन में छोड़े गए शब्द हैंZδ तब अवशिष्ट वेक्टर बन जाता है r=(Ih)(Zδ+ϵ)। यदि डेटा आवृत्त मैट्रिक्स में वैक्टरZ IID सामान्य वैक्टर हैं और फिर त्रुटि की शर्तों से स्वतंत्र हैं Zδ+ϵN(μ1,σ2I) ताकि अवशिष्ट वितरण हो जाए:

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

यदि मॉडल में पहले से ही एक अवरोधन शब्द है (यानी, यदि यूनिट वेक्टर है 1 तब डिजाइन मैट्रिक्स में है) (Ih)1=0, जिसका अर्थ है कि अवशिष्ट के मानक वितरण रूप संरक्षित है। यदि मॉडल में कोई अवरोधन शब्द नहीं है, तो छोड़े गए चर अवशिष्ट के लिए एक गैर-शून्य मतलब दे सकते हैं। वैकल्पिक रूप से, यदि छोड़ा गया चर IID सामान्य नहीं है तो यह मानक अवशिष्ट वितरण से अन्य विचलन को जन्म दे सकता है। इस बाद के मामले में, अवशिष्ट परीक्षण एक लोप किए गए चर की उपस्थिति के परिणामस्वरूप कुछ भी पता लगाने की संभावना नहीं है; यह आमतौर पर यह निर्धारित करना संभव नहीं है कि सैद्धांतिक अवशिष्ट वितरण से विचलन एक छोड़े गए चर के परिणामस्वरूप होता है, या केवल शामिल चर के साथ एक बीमार-पीडित संबंध के कारण होता है (और यकीनन ये किसी भी मामले में एक ही बात हैं)।


1
व्यापक प्रतिक्रिया के लिए धन्यवाद। क्या मैं पूछ सकता हूं कि आपको कहां मिलाr=(Ih)ϵ? मुझे लगता है किr=YY^=(Ih)Y
माई

1
जबसे hx=x आपके पास (Ih)x=0 ताकि r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
बेन -

-4

आमतौर पर, अवशिष्ट और त्रुटियों का मतलब एक ही बात है। यदि आपके मॉडल का कोई भविष्यवक्ता नहीं है, तो E (Y) वास्तव में Y का अर्थ है। भविष्यवक्ताओं के साथ (जैसा कि आपके मॉडल में है), E (Y) प्रत्येक X से अनुमानित Y का मूल्य है। इसलिए अवशिष्ट प्रत्येक के बीच का अंतर है। और भविष्यवाणी की वाई।


3
"आमतौर पर, अवशिष्ट और त्रुटियों का मतलब एक ही बात है।" मुझे नहीं लगता कि यह सच है - जहां तक ​​मैं समझता हूं, अवशिष्ट अवलोकन मूल्य और अनुमानित मूल्य के बीच के अंतर को मापते हैं, जबकि त्रुटियां मनाया मूल्य और वास्तविक औसत मूल्य के बीच अंतर को मापती हैं।
माई

1
सख्ती से बोलने वाली त्रुटियां और अवशिष्ट पर्यायवाची नहीं हैं। पूर्व यादृच्छिक चर हैं, बाद वाले अहसास हैं।
रिचर्ड हार्डी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.