जब धारणाएं पूरी नहीं होतीं तो रिग्रेशन मॉडल कितना गलत है?


28

प्रतिगमन मॉडल को फिट करते समय, आउटपुट की धारणाएं पूरी नहीं होने पर क्या होता है, विशेष रूप से:

  1. यदि अवशेष होमोसिडेस्टिक नहीं हैं तो क्या होगा? यदि अवशिष्ट रेजिड्यूल्स बनाम फिट प्लाट में बढ़ते या घटते पैटर्न को दिखाते हैं।
  2. यदि अवशेष सामान्य रूप से वितरित नहीं होते हैं, और शापिरो-विल्क परीक्षण विफल हो जाता है तो क्या होता है? सामान्यता का शापिरो-विल्क परीक्षण एक बहुत ही कठोर परीक्षण है, और कभी-कभी भले ही सामान्य-क्यूक्यू साजिश कुछ हद तक उचित लगती है, डेटा परीक्षण में विफल रहता है।
  3. यदि एक या एक से अधिक भविष्यवाणियों को सामान्य रूप से वितरित नहीं किया जाता है, तो सामान्य-क्यूक्यू भूखंड पर सही नहीं दिखता है या यदि डेटा शापिरो-विल्क परीक्षण विफल हो जाता है?

मैं समझता हूं कि कोई कठिन श्वेत-श्याम विभाजन नहीं है, कि ०.९ ४ सही है और ०.९ ५ गलत है, और प्रश्न में, मैं यह जानना चाहता हूं:

  1. एक मॉडल के लिए सामान्यता विफल होने का क्या मतलब है जो आर-स्क्वेर्ड मूल्य के अनुसार एक अच्छा फिट है। क्या यह कम विश्वसनीय, या पूरी तरह से बेकार हो जाता है?
  2. किस हद तक विचलन स्वीकार्य है, या यह बिल्कुल स्वीकार्य है?
  3. जब सामान्यता मानदंडों को पूरा करने के लिए डेटा पर परिवर्तन लागू करते हैं, तो क्या मॉडल बेहतर होता है यदि डेटा अधिक सामान्य है (Shapiro-Wilk परीक्षण पर उच्च पी-मूल्य, सामान्य क्यूक्यू प्लॉट पर बेहतर दिखना), या यह बेकार है (समान रूप से अच्छा है) मूल की तुलना में खराब) जब तक डेटा सामान्यता परीक्षण पास नहीं करता है?

मुझे लगता है कि शीर्षक का जवाब केवल "हां" है।
थॉमस क्लेबर्ग

@ThomasCleberg दिलचस्प जवाब। क्या आप भी यही कहते हैं जब लोग आपसे पूछते हैं कि "आप कैसे हैं?" :)
जॉनके डीके

नहीं, लेकिन यह है अगर वे मुझसे पूछते हैं कि क्या मैं जीवित हूं। :)
थॉमस क्लबर्ग

अपने आप से पूछने के लिए एक बुनियादी सवाल: "आप किस के लिए प्रतिगमन मॉडल का उपयोग करना चाहते हैं?"
फ्लोरिस

जवाबों:


32

यदि अवशेष होमोसिडेस्टिक नहीं हैं तो क्या होगा? यदि अवशिष्ट रेजिड्यूल्स बनाम फिट प्लाट में बढ़ते या घटते पैटर्न को दिखाते हैं।

यदि त्रुटि शब्द होमोसिडेस्टिक नहीं है (हम अवशिष्ट त्रुटि शब्द के लिए छद्म के रूप में अवशिष्ट का उपयोग करते हैं), तो ओएलएस अनुमानक अभी भी सुसंगत और निष्पक्ष है लेकिन अब रैखिक अनुमानकों की कक्षा में सबसे अधिक कुशल नहीं है। यह GLS का अनुमानक है जो अब इस संपत्ति का आनंद लेता है।

यदि अवशेष सामान्य रूप से वितरित नहीं होते हैं, और शापिरो-विल्क परीक्षण विफल हो जाता है तो क्या होता है? सामान्यता का शापिरो-विल्क परीक्षण एक बहुत ही कठोर परीक्षण है, और कभी-कभी भले ही सामान्य-क्यूक्यू साजिश कुछ हद तक उचित लगती है, डेटा परीक्षण में विफल रहता है।

गॉस-मार्कोव प्रमेय द्वारा सामान्यता की आवश्यकता नहीं है। OLS आकलनकर्ता अभी भी BLUE है, लेकिन सामान्यता के बिना आपको कम से कम परिमित आकार के लिए, अनुमान, परिकल्पना परीक्षण और आत्मविश्वास अंतराल करने में कठिनाई होगी। हालांकि, अभी भी बूटस्ट्रैप है।

Asymptotically यह एक समस्या से कम है क्योंकि OLS आकलनकर्ता के पास हल्के नियमितता की शर्तों के तहत सामान्य वितरण सीमित है।

यदि एक या एक से अधिक भविष्यवाणियों को सामान्य रूप से वितरित नहीं किया जाता है, तो सामान्य-क्यूक्यू भूखंड पर सही नहीं दिखता है या यदि डेटा शापिरो-विल्क परीक्षण विफल हो जाता है?

जहां तक ​​मुझे पता है कि भविष्यवक्ता या तो निश्चित माने जाते हैं या प्रतिगमन उन पर सशर्त है। यह गैर-सामान्यता के प्रभाव को सीमित करता है।

एक मॉडल के लिए सामान्यता विफल होने का क्या मतलब है जो आर-स्क्वेर्ड मूल्य के अनुसार एक अच्छा फिट है। क्या यह कम विश्वसनीय, या पूरी तरह से बेकार हो जाता है?

R-squared मॉडल द्वारा समझाया गया विचरण का अनुपात है। यह सामान्य धारणा की आवश्यकता नहीं है और यह फिट की परवाह किए बिना अच्छाई का एक उपाय है। यदि आप इसे आंशिक एफ-परीक्षण के लिए उपयोग करना चाहते हैं, तो यह एक और कहानी है।

किस हद तक विचलन स्वीकार्य है, या यह बिल्कुल स्वीकार्य है?

सामान्यता से विचलन का मतलब है, है ना? यह वास्तव में आपके उद्देश्यों पर निर्भर करता है क्योंकि जैसा कि मैंने कहा, सामान्यता की अनुपस्थिति में इंजेक्शन कठिन हो जाता है लेकिन असंभव नहीं है (बूटस्ट्रैप!)।

जब सामान्यता मानदंडों को पूरा करने के लिए डेटा पर परिवर्तन लागू करते हैं, तो क्या मॉडल बेहतर होता है यदि डेटा अधिक सामान्य है (Shapiro-Wilk परीक्षण पर उच्च पी-मूल्य, सामान्य क्यूक्यू प्लॉट पर बेहतर दिखना), या यह बेकार है (समान रूप से अच्छा है) मूल की तुलना में खराब) जब तक डेटा सामान्यता परीक्षण पास नहीं करता है?

संक्षेप में, यदि आपके पास सभी गॉस-मार्कोव मान्यताओं के साथ - साथ सामान्यता है, तो ओएलएस अनुमानक सर्वश्रेष्ठ निष्पक्ष (बीयूई) है, अर्थात अनुमानकों के सभी वर्गों में सबसे कुशल - क्रैमर-राव लोअर बाउंड प्राप्त होता है। यह निश्चित रूप से वांछनीय है लेकिन ऐसा नहीं होने पर यह दुनिया का अंत नहीं है। उपरोक्त टिप्पणी लागू होती है।

परिवर्तनों के बारे में, ध्यान रखें कि प्रतिक्रिया के वितरण को सामान्यता के करीब लाया जा सकता है, व्याख्या बाद में सीधी नहीं हो सकती है।

ये आपके सवालों के कुछ छोटे जवाब हैं। आप विशेष रूप से गैर-सामान्यता के निहितार्थ से चिंतित हैं। कुल मिलाकर, मैं यह कहूंगा कि यह लोगों की तरह भयावह नहीं है (बनाया गया है?) का मानना ​​है कि काम करने के तरीके हैं। जिन दो संदर्भों को मैंने शामिल किया है वे आगे पढ़ने के लिए एक अच्छा शुरुआती बिंदु हैं, पहला सैद्धांतिक प्रकृति का।

संदर्भ :

हयाशी, फुमियो। : "इकोनोमेट्रिक्स।", प्रिंसटन यूनिवर्सिटी प्रेस, 2000

कुटनर, माइकल एच।, एट अल। "अनुप्रयुक्त रैखिक सांख्यिकीय मॉडल।", मैकग्रा-हिल इरविन, 2005।


YXiβi

2
y

βiβiYY1,,Yn

@DeltaIV "आदर्श मॉडल" से आपका क्या अभिप्राय है? यह सही मॉडल है जो मापदंडों में रैखिक है। हालांकि हमें केवल अनुमानक के रूप में विचार करने पर रोक नहीं है क्योंकि प्रतिक्रिया के केवल रैखिक कार्य हैं। जीएम का कहना है कि अगर हम प्रतिक्रिया के रैखिक कार्यों में अपना ध्यान केंद्रित करते हैं, तो कुछ अतिरिक्त मान्यताओं के तहत OLS BLUE है। अब, यदि हम सामान्यता भी मान लेते हैं, तो कोई बात नहीं कि आप किस प्रतिक्रिया पर विचार कर रहे हैं , आप बस ओएलएस से बेहतर नहीं कर सकते, बशर्ते कि अनुमान लगाने वाला निष्पक्ष हो।
जॉन

Yiβi
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.