सामान्य अवशेषों का क्या मतलब है और यह मुझे मेरे डेटा के बारे में क्या बताता है?


13

सुंदर मूल प्रश्न:

रेखीय प्रतिगमन से अवशिष्टों के सामान्य वितरण का क्या अर्थ है? के संदर्भ में, यह प्रतिगमन से मेरे मूल डेटा को कैसे दर्शाता है?

मैं पूरी तरह से स्तब्ध हूँ, धन्यवाद दोस्तों

जवाबों:


5

वास्तव में रैखिक प्रतिगमन आपके परिणाम के सशर्त अपेक्षित मूल्यों को दर्शाता है। इसका अर्थ है: यदि आप प्रतिगमन मापदंडों के वास्तविक मूल्यों को जानते थे (जैसे कि और ), तो आपके भविष्यवक्ता X का मान दिया, जो कि समीकरण से क्या आपने लिए दिए गए सभी मानों (संभावित) अवलोकनों पर लिए अपेक्षित मान की गणना की है ।β 1[ वाई | X ] = β 0 + β 1 X Y Xβ0β1

E[Y|X]=β0+β1X
YX

हालाँकि: आप वास्तव में किसी भी एक मान की उम्मीद नहीं करते हैं कि दिए गए मान बिल्कुल (सशर्त) माध्य के बराबर है। इसलिए नहीं कि आपका मॉडल गलत है, बल्कि इसलिए कि कुछ प्रभाव हैं जिनका आपने हिसाब नहीं किया है (जैसे त्रुटि को मापना)। तो किसी दिए गए मानों के लिए ये मान औसत मान (यानी ज्यामितीय रूप से: उस लिए प्रतिगमन रेखा के बिंदु के आसपास) में उतार-चढ़ाव करेंगे ।X Y X XYXYXX

अब, सामान्य धारणा, का कहना है कि s और उनके मिलान बीच का अंतर औसत शून्य के साथ एक सामान्य वितरण का अनुसरण करता है। इस का मतलब है, यदि आप एक है मूल्य, तो आप एक स्वाद ले सकते हैं मूल्य पहले गणना द्वारा (यानी फिर से , अगले नमूने, प्रतिगमन लाइन पर बिंदु) कि से सामान्य वितरण और उन्हें जोड़ना: E [ | एक्स ] एक्स वाई बीटा 0 + β 1 एक्स [ Y | एक्स ] ε Y ' = [ Y | X ] + ϵYE[Y|X]XYβ0+β1XE[Y|X]ϵ

Y=E[Y|X]+ϵ

संक्षेप में: यह सामान्य वितरण मॉडल द्वारा बताए गए परिवर्तनशीलता के शीर्ष पर आपके परिणाम में परिवर्तनशीलता का प्रतिनिधित्व करता है ।

ध्यान दें: अधिकांश डेटासेट में, आपके पास किसी भी (जब तक कि आपका भविष्यवक्ता सेट स्पष्ट नहीं है) के लिए कई मान नहीं हैं , लेकिन यह सामान्यता आपके डेटासेट में केवल टिप्पणियों के लिए नहीं, बल्कि पूरी आबादी के लिए जाती है।एक्सYX

नोट: मैंने एक भविष्यवक्ता के साथ रैखिक प्रतिगमन के लिए तर्क किया है, लेकिन वही अधिक के लिए जाता है: उपरोक्त में "हाइपरप्लेन" के साथ बस "लाइन" को बदलें।


यह एक महान व्याख्या है! हालांकि एक सवाल: ई सामान्य रूप से वितरित होने का मतलब यह होगा कि आप मान लेते हैं कि ई के लिए सबसे अधिक संभावित मूल्य -1 और +1 के बीच हैं (वे मानकीकृत होने के बाद)? तो आप मूल रूप से एक सामान्य वितरण का उपयोग करते हैं, कहते हैं, एक पॉज़िशन वितरण, क्योंकि सामान्य वितरण बेहतर मॉडल है कि ये मूल्य वास्तविक जीवन में कैसे व्यवहार करते हैं?
user3813234

1

इसका बहुत मतलब हो सकता है या इसका मतलब कुछ भी नहीं हो सकता है। यदि आप उच्चतम आर-वर्ग प्राप्त करने के लिए एक मॉडल फिट करते हैं तो इसका मतलब यह हो सकता है कि आप मूर्ख हैं। यदि आप एक मॉडल फिट करते हैं कि इसमें पारदर्शक होने के लिए चर आवश्यक और आवश्यक हैं और बाहरी लोगों की पहचान करने के लिए देखभाल करते हैं तो आपने एक अच्छा काम किया है। इस बारे में अधिक जानकारी के लिए यहां देखें http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175


0

अवशिष्टों की सामान्यता एक रैखिक मॉडल को चलाने की धारणा है। इसलिए, यदि आपके अवशेष सामान्य हैं, तो इसका मतलब है कि आपकी धारणा वैध है और मॉडल इनवेंशन (आत्मविश्वास अंतराल, मॉडल की भविष्यवाणी) भी मान्य होना चाहिए। यह इत्ना आसान है!


सामान्य धारणा अप्रमाणिक त्रुटि (इसलिए धारणा की आवश्यकता) के बारे में है, न कि अवलोकन योग्य अवशिष्टों के बारे में।
बजे DL Dahly

2
हाँ, लेकिन आप अवशिष्ट त्रुटि के बारे में अपनी धारणा का परीक्षण करने के लिए अवशिष्ट का उपयोग करते हैं।
wcampbell

मैं इस बात से सहमत नहीं हूं कि सामान्य अवशिष्ट मान्य प्रतिगमन मॉडल की गारंटी देते हैं। मान लीजिए कि आपके पास X और Y त्रुटि वाला एक गोलाकार गौसियन मॉडल है जो समान हैं। फिर प्रतिगमन रेखा विश्वास अंतराल है । यह शायद ही एकमात्र काउंटर उदाहरण है, कई और भी हैं।  to 
कार्ल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.