अवशेषों के आधार पर डायग्नोस्टिक्स क्यों हैं?


12

सरल रेखीय प्रतिगमन में अक्सर एक व्यक्ति यह सत्यापित करना चाहता है कि क्या कुछ धारणाएँ अनुमान लगाने में सक्षम हैं (जैसे अवशिष्ट सामान्य रूप से वितरित किए जाते हैं)।

क्या यह जांच कर मान्यताओं की जाँच करना उचित है कि क्या फिटेड वैल्यू आम तौर पर वितरित की जाती है?

जवाबों:


20

अवशेषों के आधार पर डायग्नोस्टिक्स क्यों हैं?

क्योंकि कई धारणाएं के सशर्त वितरण से संबंधित हैं , न कि इसके बिना शर्त वितरण से। यह त्रुटियों पर एक धारणा के बराबर है, जिसे हम अवशिष्ट द्वारा अनुमान लगाते हैं।Y

सरल रेखीय प्रतिगमन में अक्सर एक व्यक्ति यह सत्यापित करना चाहता है कि क्या कुछ धारणाएँ अनुमान लगाने में सक्षम हैं (जैसे अवशिष्ट सामान्य रूप से वितरित किए जाते हैं)।

वास्तविक सामान्यता धारणा अवशिष्टों के बारे में नहीं है, बल्कि त्रुटि अवधि के बारे में है। उन लोगों के लिए निकटतम चीज जो आपके पास हैं वे अवशिष्ट हैं, यही कारण है कि हम उन्हें जांचते हैं।

क्या यह जाँच कर मान्यताओं की जाँच करना उचित है कि क्या फिटेड वैल्यू आम तौर पर वितरित की जाती है?

सं। फिटेड वैल्यू का वितरण के पैटर्न पर निर्भर करता है । यह आपको मान्यताओं के बारे में बिल्कुल नहीं बताता है।x

उदाहरण के लिए, मैंने केवल नकली डेटा पर एक प्रतिगमन चलाया, जिसके लिए सभी मान्यताओं को सही ढंग से निर्दिष्ट किया गया था। उदाहरण के लिए त्रुटियों की सामान्यता संतुष्ट थी। जब हम फिट किए गए मानों की सामान्यता को जांचने का प्रयास करते हैं तो यह होता है:

फिटेड्स पर सामान्य निदान

वे स्पष्ट रूप से गैर-सामान्य हैं; वास्तव में वे बीमार दिखते हैं। क्यों? ठीक है, क्योंकि सज्जित मूल्यों का वितरण के पैटर्न पर निर्भर करता है । त्रुटियां सामान्य थीं, लेकिन फिट किए गए मूल्य लगभग कुछ भी हो सकते हैं।x

एक और चीज जो लोग अक्सर जांचते हैं (बहुत अधिक बार, वास्तव में) s की सामान्यता है ... लेकिन बिना शर्त पर ; फिर से, यह s के पैटर्न पर निर्भर करता है , और इसलिए आपको वास्तविक मान्यताओं के बारे में बहुत कुछ नहीं बताता है। फिर से, मैंने कुछ डेटा जेनरेट किया है, जहाँ धारणाएँ पकड़ में आती हैं; यहां तब होता है जब हम बिना शर्त मानों की सामान्यता की जांच करने की कोशिश करते हैं:x x yyxxy

कच्चे y- मूल्यों पर सामान्य निदान

फिर, गैर सामान्य हम यहाँ देख (y के तिरछा कर रहे हैं) की सशर्त सामान्य से संबंधित नहीं है रों।y

वास्तव में मैं मेरे बगल में अभी एक पाठ्यपुस्तक है कि चर्चा इस तरह के अंतर (सशर्त वितरण और की बिना शर्त वितरण के बीच ) - यह है कि, यह एक प्रारंभिक अध्याय में बताता है कि क्यों सिर्फ के वितरण को देख रों नहीं है ' सही और फिर बाद के अध्यायों को बार-बार चेक के वितरण को देखकर सामान्य धारणा में मान के प्रभाव पर विचार किए बिना की मान्यताओं की उपयुक्तता (एक और बात यह आम तौर पर करता है पर बस देखो करने के लिए है का आकलन करने के हिस्टोग्राम उस मूल्यांकन को करने के लिए, लेकिन यह एक पूरी अन्य समस्या है )।y - y - x -Yyyx


क्या धारणाएं हैं, हम उन्हें कैसे जांचते हैं और हमें उन्हें कब बनाने की आवश्यकता है?

  • के रूप में तय (त्रुटि के बिना मनाया गया) माना जाएगा। हम आम तौर पर इस निदान की जांच करने की कोशिश नहीं करते हैं (लेकिन हमें एक अच्छा विचार होना चाहिए कि क्या यह सच है)।x

  • मॉडल में और के बीच संबंध सही ढंग से निर्दिष्ट है (जैसे, रैखिक)। यदि हम सर्वश्रेष्ठ फिटिंग रैखिक मॉडल को घटाते हैं, तो अवशिष्ट और बीच के संबंध में कोई शेष पैटर्न नहीं होना चाहिए ।एक्स एक्सE(Y)xx

  • लगातार विचरण (यानी, पर निर्भर नहीं करता । त्रुटियों के प्रसार को निरंतरता है इसके खिलाफ बच के प्रसार को देख द्वारा जाँच की जा सकता है , या कुछ समारोह की जाँच करके खिलाफ वर्गीय अवशिष्टों और औसत में परिवर्तन के लिए जाँच (उदाहरण के लिए, लॉग या वर्गमूल जैसे कार्य। आर चौकोर अवशिष्टों की चौथी जड़ का उपयोग करता है)।x x xVar(Y|x)xxx

  • सशर्त स्वतंत्रता / त्रुटियों की स्वतंत्रता। निर्भरता के विशेष रूप के लिए जाँच की जा सकती है (उदाहरण के लिए, सीरियल संबंध)। यदि आप निर्भरता के रूप का अनुमान नहीं लगा सकते हैं, तो जांचना थोड़ा कठिन है।

  • सामान्य वितरण सशर्तता / त्रुटियों की सामान्यता। उदाहरण के लिए, अवशिष्ट के एक QQ भूखंड को करके, जाँच की जा सकती है।Y

(वास्तव में कुछ अन्य धारणाएँ हैं जिनका मैंने उल्लेख नहीं किया है, जैसे कि योजक त्रुटियां, जिनमें त्रुटियों के शून्य अर्थ हैं, और इसी तरह।)

यदि आप केवल न्यूनतम वर्ग रेखा के फिट होने का अनुमान लगाने में रुचि रखते हैं और मानक त्रुटियों को नहीं कहते हैं, तो आपको इनमें से अधिकांश अनुमान लगाने की आवश्यकता नहीं है। उदाहरण के लिए, त्रुटियों का वितरण अनुमान (परीक्षणों और अंतराल) को प्रभावित करता है, और यह अनुमान की दक्षता को प्रभावित कर सकता है, लेकिन एलएस लाइन अभी भी उदाहरण के लिए सबसे अच्छा रैखिक निष्पक्ष है; इसलिए जब तक कि वितरण इतनी बुरी तरह से गैर-सामान्य नहीं है कि सभी रैखिक अनुमानक खराब हैं, यह जरूरी नहीं है कि त्रुटि शब्द के बारे में मान्यताओं को पकड़ में न रखें।


मैंने अपने उत्तर में कुछ आरेख जोड़े।
Glen_b -Reinstate मोनिका

2
यह एक बेहतरीन जवाब है। यदि आप अधिक चाहते हैं, तो मैं यहां कुछ समान क्षेत्र को कवर करता हूं: क्या होगा यदि अवशेषों को सामान्य रूप से वितरित किया जाता है, लेकिन वाई नहीं है?
गंग - मोनिका

@ गुंग मैं पहले इसे लिंक न करने के लिए खुद को लात मार रहा हूं।
Glen_b -Reinstate मोनिका

1
@ गेल: बहुत अच्छा स्वभाव। मुझे पाठ्यपुस्तकों में विषय के इतने अच्छे उपचार और इंटरनेट पर बहुत सारे संसाधनों में नहीं होने के कारण लंबे समय तक एक ही भ्रम था। दूसरी ओर, वाई के बिना शर्त वितरण को हमेशा सशर्त वितरण के लिए एक मॉडल की कटौती करने के लिए लगभग हमेशा जांच की जाती है, खासकर समय-श्रृंखला के संदर्भ में। क्या इसके पीछे कोई सैद्धांतिक तर्क है? मैंने इसे एक प्रश्न के रूप में पूछने की कोशिश की, लेकिन मुझे लगता है कि यह ठीक से वाक्यांश नहीं दे सकता है: आंकड़े.stackexchange.com/questions/74886/…
Cagdas Ozgenc

@CagdasOzgenc केवल एक ही कारण है कि मैं इसे करने के बारे में सोच सकता हूं, क्योंकि आपके पास एक मॉडल होने से पहले यह करना आसान है। आपके पास उस लिंक किए गए प्रश्न का उत्तर मेरे लिए एक अच्छे उत्तर की तरह लग रहा था जब यह पोस्ट किया गया था।
Glen_b -Reinstate मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.