प्रतिगमन रेखा का अनुमान लगाने के उद्देश्य से अवशिष्टों की सामान्यता "सभी पर बमुश्किल महत्वपूर्ण" क्यों है?


21

गेलमैन एंड हिल (2006) ने p46 पर लिखा है कि:

रिग्रेशन धारणा जो आम तौर पर कम से कम महत्वपूर्ण है, वह यह है कि त्रुटियों को आम तौर पर वितरित किया जाता है। वास्तव में, प्रतिगमन रेखा (व्यक्तिगत डेटा बिंदुओं की भविष्यवाणी करने की तुलना में) का अनुमान लगाने के उद्देश्य से, सामान्यता की धारणा मुश्किल से बिल्कुल महत्वपूर्ण है। इस प्रकार, कई प्रतिगमन पाठ्यपुस्तकों के विपरीत, हम प्रतिगमन अवशेषों की सामान्यता के निदान की अनुशंसा नहीं करते हैं।

गेलमैन और हिल इस बात को और स्पष्ट नहीं करते।

क्या गेलमैन और हिल सही हैं? यदि ऐसा है, तो:

  1. क्यों "मुश्किल से महत्वपूर्ण"? यह न तो महत्वपूर्ण है और न ही पूरी तरह अप्रासंगिक है?

  2. व्यक्तिगत डेटा बिंदुओं की भविष्यवाणी करते समय अवशिष्टों की सामान्यता क्यों महत्वपूर्ण है?

जेलमैन, ए।, और हिल, जे। (2006)। प्रतिगमन और बहुस्तरीय / पदानुक्रमित मॉडल का उपयोग करके डेटा विश्लेषण। कैम्ब्रिज यूनिवर्सिटी प्रेस

जवाबों:


21

के लिए आकलन सामान्य वास्तव में एक धारणा नहीं है, लेकिन एक प्रमुख विचार दक्षता हो सकता है; कई मामलों में एक अच्छा रैखिक अनुमानक ठीक करेगा और उस मामले में (गॉस-मार्कोव द्वारा) एलएस अनुमान उन चीजों में से सबसे अच्छा होगा जो कि-ठीक-ठीक होगा। (यदि आपकी पूंछ काफी भारी है, या बहुत हल्की है, तो इससे कुछ और समझ में आ सकता है)

परीक्षणों और CI के मामले में, जबकि सामान्यता को मान लिया जाता है, यह आमतौर पर सभी महत्वपूर्ण नहीं होता है (फिर से, जब तक कि पूंछ वास्तव में भारी या हल्की नहीं होती है, या शायद प्रत्येक में से एक), उस में, कम से कम नहीं में बहुत- छोटे नमूने परीक्षण और विशिष्ट सीआई अपने नाममात्र गुणों के करीब होते हैं (दावा किए गए महत्व स्तर या कवरेज से बहुत दूर नहीं) और अच्छा प्रदर्शन करते हैं (विशिष्ट परिस्थितियों के लिए उचित शक्ति या सीआई विकल्प से बहुत अधिक व्यापक नहीं हैं) - जैसा कि आप चलते हैं सामान्य केस पावर से आगे एक मुद्दे का अधिक हो सकता है, और उस मामले में बड़े नमूने आम तौर पर सापेक्ष दक्षता में सुधार नहीं करेंगे, इसलिए जहां प्रभाव आकार ऐसे होते हैं कि शक्ति अपेक्षाकृत अच्छी शक्ति के साथ एक परीक्षण में मद्धम होती है, यह बहुत खराब हो सकती है परीक्षणों के लिए जो सामान्यता मानते हैं।

परीक्षणों में CI और महत्व के स्तर के लिए नाममात्र गुणों के करीब होने की यह प्रवृत्ति कई कारकों के एक साथ काम करने की वजह से है (जिनमें से एक चर के रैखिक संयोजनों की प्रवृत्ति है सामान्य वितरण के करीब आने के लिए जब तक बहुत सारे मूल्य शामिल हैं और उनमें से कोई भी कुल विचरण के एक बड़े अंश का योगदान नहीं करता है)।

हालांकि, एक भविष्यवाणी सामान्य धारणा पर आधारित अंतराल के मामले में, सामान्य अपेक्षाकृत अधिक महत्वपूर्ण है, के बाद से अंतराल की चौड़ाई दृढ़ता से एक के वितरण पर निर्भर है एकल मूल्य। हालांकि, वहां भी, सबसे सामान्य अंतराल के आकार (95% अंतराल) के लिए, यह तथ्य कि कई असमान वितरण उनके लगभग 95% वितरण के लगभग 2sds के भीतर सामान्य सामान्य अंतराल अंतराल के उचित प्रदर्शन का परिणाम है। जब वितरण सामान्य नहीं होता है। [यह बहुत संकरा या व्यापक अंतराल तक बहुत अच्छी तरह से नहीं ले जाता है - हालांकि 50% अंतराल या 99.9% अंतराल कहते हैं।]


"सामान्य वितरण के करीब होने के लिए चर के रैखिक संयोजनों की प्रवृत्ति।" - मुझे लगता है कि यह केंद्रीय सीमा प्रमेय से जुड़ा नहीं है। क्या यह? यदि नहीं, तो यह कथन किस प्रकार का "प्रमेय" है?
हाइजेनबर्ग

1
@ हेइज़ेनबर्ग यह सीएलटी के विशेष संस्करणों के लिए एक कनेक्शन है, हाँ। ( यहाँ ल्यपुनोव और लिंडबर्ग संस्करण देखें )। यदि आप परिमित नमूनों के लिए आवेदन करने के लिए एक प्रमेय चाहते हैं, तो हम बेरी-एसेन प्रमेय का एक संस्करण देख रहे हैं। लेकिन इस कथन को एक प्रमेय की तुलना में अधिक अवलोकन (इसलिए "प्रवृत्ति" शब्द का उपयोग) कहा गया था।
Glen_b -Reinstate मोनिका

7

2: जब व्यक्तिगत डेटा बिंदुओं की भविष्यवाणी करते हैं, तो उस भविष्यवाणी के चारों ओर विश्वास अंतराल मानता है कि अवशिष्ट सामान्य रूप से वितरित किए जाते हैं।

यह विश्वास अंतराल के बारे में सामान्य धारणा से बहुत अलग नहीं है - मान्य होने के लिए, हमें वितरण को समझने की आवश्यकता है, और सबसे आम धारणा सामान्यता है। उदाहरण के लिए, एक माध्य काम के आसपास एक मानक आत्मविश्वास अंतराल क्योंकि नमूना के वितरण का मतलब सामान्यता है, इसलिए हम az या t वितरण का उपयोग कर सकते हैं

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.