रैखिक प्रतिगमन में त्रुटि शब्दों में गैर-स्थिर विचरण करने के परिणाम क्या हैं?


9

रेखीय प्रतिगमन की धारणाओं में से एक यह है कि त्रुटि शर्तों में एक निरंतर विचरण होना चाहिए और यह कि मॉडल से जुड़े आत्मविश्वास अंतराल और परिकल्पना परीक्षण इस धारणा पर निर्भर करते हैं। वास्तव में क्या होता है जब त्रुटि शर्तों में निरंतर विचरण नहीं होता है?

जवाबों:


15

विषमलैंगिकता के परिणाम हैं:

  1. साधारण न्यूनतम वर्ग (OLS) आकलनकर्ता अभी भी सुसंगत है लेकिन यह अब कुशल नहीं है ।^=(एक्स'एक्स)एक्स'y

  2. अनुमान जहां है नहीं एक सुसंगत आकलनकर्ता अब अपने आकलनकर्ता की सहप्रसरण मैट्रिक्स के लिए। यह पक्षपाती और असंगत दोनों हो सकता है। और व्यवहार में, यह काफी हद तक विचरण को कम कर सकता है।वीआर^()=(एक्स'एक्स)-1σ^2σ^2=1n-'^

बिंदु (1) एक प्रमुख मुद्दा नहीं हो सकता है; लोग अक्सर वैसे भी साधारण OLS अनुमानक का उपयोग करते हैं। लेकिन बिंदु (2) को संबोधित किया जाना चाहिए। क्या करें?

आपको हेटरोसेडसिटी-सुसंगत मानक त्रुटियों की आवश्यकता है । मानक दृष्टिकोण बड़े-नमूना मान्यताओं, स्पर्शोन्मुख परिणामों पर झुकाव और के विचरण का अनुमान है :

वीआर^()=1n(एक्स'एक्सn)-1एस(एक्स'एक्सn)-1
जहाँ को ।एसएस=1n-Σमैं(एक्समैंमैं)(एक्समैंमैं)'

यह हेटेरोसेडासिटी-सुसंगत मानक त्रुटियों को देता है। उन्हें ह्यूबर-व्हाइट मानक त्रुटियों, मजबूत मानक त्रुटियों, "सैंडविच" अनुमानक, आदि के रूप में भी जाना जाता है ... किसी भी बुनियादी मानक आँकड़े पैकेज में मजबूत मानक त्रुटियों का विकल्प होता है। इसका इस्तेमाल करें!

कुछ अतिरिक्त टिप्पणियां (अपडेट)

यदि हेटेरोसेडासिटी काफी बड़ी है, तो नियमित ओएलएस अनुमान में बड़ी व्यावहारिक समस्याएं हो सकती हैं। अभी भी एक सुसंगत अनुमानक के रूप में, आपके पास छोटी नमूना समस्याएं हो सकती हैं, जहां आपका पूरा अनुमान कुछ उच्च, उच्च विचरण टिप्पणियों द्वारा संचालित होता है। (यह वही है जो @ seanv507 टिप्पणियों में बात कर रहा है)। ओएलएस अनुमानक अक्षम है कि यह इष्टतम की तुलना में उच्च विचरण टिप्पणियों को अधिक वजन दे रहा है। अनुमान बेहद शोर हो सकता है।

अक्षमता को ठीक करने की कोशिश के साथ एक समस्या यह है कि आप शायद त्रुटि शर्तों के लिए सहसंयोजक मैट्रिक्स को नहीं जानते हैं, इसलिए जीएलएस जैसी किसी चीज का उपयोग करने से चीजें और भी खराब हो सकती हैं यदि त्रुटि शब्द सहसंयोजक मैट्रिक्स का कचरा है।

इसके अलावा, ह्यूबर-व्हाइट मानक त्रुटियां जो मैं ऊपर देता हूं, छोटे नमूनों में बड़ी समस्याएं हो सकती हैं। इस विषय पर एक लंबा साहित्य है। उदाहरण के लिए। Imbens और Kolesar (2016) देखें, "छोटे नमूनों में मजबूत मानक त्रुटियां: कुछ व्यावहारिक सलाह।"

आगे के अध्ययन के लिए दिशा:

यदि यह स्व-अध्ययन है, तो विचार करने के लिए अगली व्यावहारिक चीज क्लस्टर्ड मानक त्रुटियां हैं। ये समूहों के भीतर मनमानी सहसंबंध के लिए सही हैं।


1
मैथ्यू - मुझे लगता है कि अधिक व्यावहारिक समस्याएं बिंदु (1) को स्पष्ट करेंगी। उदाहरण के लिए, अनुमानक उन क्षेत्रों के प्रति 'पक्षपाती' नहीं होगा, जो उच्चतर विचरण करते हैं? - जो एक बड़ी समस्या होगी यदि वे क्षेत्र उच्च उत्तोलन का कारण बनने से दूर थे।
seanv507

3
@ seanv507 विषमलैंगिकता ओएलएस अनुमान का पूर्वाग्रह नहीं करती है। मुझे लगता है कि आप जिसका जिक्र कर रहे हैं वह अक्षमता है। उच्च-विचरण के अवलोकनों और कम-विचरण अवलोकनों को समान रूप से भारित करने से, ओएलएस अनुमानक की तुलना में उच्च विचरण होता है, सैद्धांतिक रूप से प्रतिलोम वज़निंग जैसी किसी वस्तु के साथ प्राप्त होता है । चाहे आप के अपने अनुमानों का उपयोग करना चाहते आकलन चरण में (आकलन करने के लिए यानी ) आप कितना लगता है कि आप जानते हैं पर निर्भर करता है । σमैं2σमैं2
मैथ्यू गन

1
मैथ्यू, मुझे पता है कि इसका परिचय पूर्वाग्रह नहीं है (मैं उद्धरण में शब्द का उपयोग करने के लिए [आप और ओपी से क्षमा चाहता हूं :) मैं उपयुक्त शब्द के बारे में नहीं सोच सकता था)। लेकिन मैं व्यावहारिक प्रभाव (और ओपी को उन लोगों को समझना चाहता हूं) का सुझाव देने की कोशिश कर रहा हूं - जब / क्यों बिंदु (1) एक प्रमुख मुद्दा नहीं है। क्या आप इस बात से सहमत नहीं होंगे कि इसका प्रभाव यह है कि तब अधिक भिन्नता वाले क्षेत्र पर निर्भर करता है, जितना आप सहजता से अपेक्षा कर सकते हैं / चाहते हैं। (सहज सीधी रेखा फिट होगी कि प्रत्येक क्षेत्र में बराबर भार होगा जबकि infact OLS उच्च पर अधिक ध्यान केंद्रित करेगा। विचरण क्षेत्र)।
seanv507

@ seanv507 अपने स्वयं के उत्तर को जोड़ने के लिए स्वतंत्र महसूस करें!
मैथ्यू गन

Heteroskedasticity-मजबूत मानक त्रुटियों (जो एड लीमर अपने 2010 अखबार में का उपयोग कर के स्थान पर "टैंटलस Asymptopia के लिए सड़क पर" कहता है सफेद कपड़े धोने ), एक भी heteroskedasticity के लिए द्वारा (विचरण अनुमान के साथ एक साथ) बिंदु अनुमान को सही करने की कोशिश कर सकते WLS। यह आपके उत्तर में ध्यान देने योग्य हो सकता है।
रिचर्ड हार्डी

3

वैसे संक्षिप्त उत्तर मूल रूप से आपका मॉडल गलत है

  • आदेश साधारण कम से कम वर्गों होने के लिए बी स्था एल inear यू nbiased stimator त्रुटि मामले की लगातार विचरण माना जाता है।
  • गॉस-मार्कोव धारणाएं - यदि पूरी हो जाती हैं - तो आपको गारंटी है कि गुणांक के लिए कम से कम चौकोर अनुमानक β निष्पक्ष है और सभी निष्पक्ष रैखिक अनुमानकर्ताओं के बीच एक न्यूनतम विचरण है।

इसलिए विषमता-सहसंयोजक मैट्रिक्स के आकलन के साथ विषमलैंगिकता की समस्याओं के मामले में, जो गुणांकों की गलत मानक त्रुटियों को जन्म देता है, जिसके परिणामस्वरूप गलत टी-आँकड़े और पी-मान होते हैं। संक्षेप में कहें, यदि आपकी त्रुटि शर्तों में निरंतर परिवर्तन नहीं है, तो साधारण न्यूनतम वर्ग अनुमान के लिए सबसे प्रभावी तरीका नहीं है। इस संबंधित प्रश्न पर एक नज़र डालें ।


0

"Heteroscedasticity" पूर्वानुमान त्रुटियों के वास्तविक मानक विचलन का अनुमान लगाना मुश्किल बनाता है। इससे आत्मविश्वास अंतराल हो सकता है जो बहुत व्यापक या बहुत संकीर्ण हैं (विशेष रूप से वे आउट-ऑफ-सैंपल भविष्यवाणियों के लिए बहुत संकीर्ण होंगे, यदि त्रुटियों का विचलन समय के साथ बढ़ रहा है)।

इसके अलावा, प्रतिगमन मॉडल डेटा के सबसेट पर बहुत अधिक ध्यान केंद्रित कर सकता है।

अच्छा संदर्भ: रैखिक प्रतिगमन की परीक्षण मान्यताओं

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.