जवाबों:
अवशेषों के आधार पर डायग्नोस्टिक्स क्यों हैं?
क्योंकि कई धारणाएं के सशर्त वितरण से संबंधित हैं , न कि इसके बिना शर्त वितरण से। यह त्रुटियों पर एक धारणा के बराबर है, जिसे हम अवशिष्ट द्वारा अनुमान लगाते हैं।
सरल रेखीय प्रतिगमन में अक्सर एक व्यक्ति यह सत्यापित करना चाहता है कि क्या कुछ धारणाएँ अनुमान लगाने में सक्षम हैं (जैसे अवशिष्ट सामान्य रूप से वितरित किए जाते हैं)।
वास्तविक सामान्यता धारणा अवशिष्टों के बारे में नहीं है, बल्कि त्रुटि अवधि के बारे में है। उन लोगों के लिए निकटतम चीज जो आपके पास हैं वे अवशिष्ट हैं, यही कारण है कि हम उन्हें जांचते हैं।
क्या यह जाँच कर मान्यताओं की जाँच करना उचित है कि क्या फिटेड वैल्यू आम तौर पर वितरित की जाती है?
सं। फिटेड वैल्यू का वितरण के पैटर्न पर निर्भर करता है । यह आपको मान्यताओं के बारे में बिल्कुल नहीं बताता है।
उदाहरण के लिए, मैंने केवल नकली डेटा पर एक प्रतिगमन चलाया, जिसके लिए सभी मान्यताओं को सही ढंग से निर्दिष्ट किया गया था। उदाहरण के लिए त्रुटियों की सामान्यता संतुष्ट थी। जब हम फिट किए गए मानों की सामान्यता को जांचने का प्रयास करते हैं तो यह होता है:
वे स्पष्ट रूप से गैर-सामान्य हैं; वास्तव में वे बीमार दिखते हैं। क्यों? ठीक है, क्योंकि सज्जित मूल्यों का वितरण के पैटर्न पर निर्भर करता है । त्रुटियां सामान्य थीं, लेकिन फिट किए गए मूल्य लगभग कुछ भी हो सकते हैं।
एक और चीज जो लोग अक्सर जांचते हैं (बहुत अधिक बार, वास्तव में) s की सामान्यता है ... लेकिन बिना शर्त पर ; फिर से, यह s के पैटर्न पर निर्भर करता है , और इसलिए आपको वास्तविक मान्यताओं के बारे में बहुत कुछ नहीं बताता है। फिर से, मैंने कुछ डेटा जेनरेट किया है, जहाँ धारणाएँ पकड़ में आती हैं; यहां तब होता है जब हम बिना शर्त मानों की सामान्यता की जांच करने की कोशिश करते हैं:x x y
फिर, गैर सामान्य हम यहाँ देख (y के तिरछा कर रहे हैं) की सशर्त सामान्य से संबंधित नहीं है रों।
वास्तव में मैं मेरे बगल में अभी एक पाठ्यपुस्तक है कि चर्चा इस तरह के अंतर (सशर्त वितरण और की बिना शर्त वितरण के बीच ) - यह है कि, यह एक प्रारंभिक अध्याय में बताता है कि क्यों सिर्फ के वितरण को देख रों नहीं है ' सही और फिर बाद के अध्यायों को बार-बार चेक के वितरण को देखकर सामान्य धारणा में मान के प्रभाव पर विचार किए बिना की मान्यताओं की उपयुक्तता (एक और बात यह आम तौर पर करता है पर बस देखो करने के लिए है का आकलन करने के हिस्टोग्राम उस मूल्यांकन को करने के लिए, लेकिन यह एक पूरी अन्य समस्या है )।y - y - x -
क्या धारणाएं हैं, हम उन्हें कैसे जांचते हैं और हमें उन्हें कब बनाने की आवश्यकता है?
के रूप में तय (त्रुटि के बिना मनाया गया) माना जाएगा। हम आम तौर पर इस निदान की जांच करने की कोशिश नहीं करते हैं (लेकिन हमें एक अच्छा विचार होना चाहिए कि क्या यह सच है)।
मॉडल में और के बीच संबंध सही ढंग से निर्दिष्ट है (जैसे, रैखिक)। यदि हम सर्वश्रेष्ठ फिटिंग रैखिक मॉडल को घटाते हैं, तो अवशिष्ट और बीच के संबंध में कोई शेष पैटर्न नहीं होना चाहिए ।एक्स एक्स
लगातार विचरण (यानी, पर निर्भर नहीं करता । त्रुटियों के प्रसार को निरंतरता है इसके खिलाफ बच के प्रसार को देख द्वारा जाँच की जा सकता है , या कुछ समारोह की जाँच करके खिलाफ वर्गीय अवशिष्टों और औसत में परिवर्तन के लिए जाँच (उदाहरण के लिए, लॉग या वर्गमूल जैसे कार्य। आर चौकोर अवशिष्टों की चौथी जड़ का उपयोग करता है)।x x x
सशर्त स्वतंत्रता / त्रुटियों की स्वतंत्रता। निर्भरता के विशेष रूप के लिए जाँच की जा सकती है (उदाहरण के लिए, सीरियल संबंध)। यदि आप निर्भरता के रूप का अनुमान नहीं लगा सकते हैं, तो जांचना थोड़ा कठिन है।
सामान्य वितरण सशर्तता / त्रुटियों की सामान्यता। उदाहरण के लिए, अवशिष्ट के एक QQ भूखंड को करके, जाँच की जा सकती है।
(वास्तव में कुछ अन्य धारणाएँ हैं जिनका मैंने उल्लेख नहीं किया है, जैसे कि योजक त्रुटियां, जिनमें त्रुटियों के शून्य अर्थ हैं, और इसी तरह।)
यदि आप केवल न्यूनतम वर्ग रेखा के फिट होने का अनुमान लगाने में रुचि रखते हैं और मानक त्रुटियों को नहीं कहते हैं, तो आपको इनमें से अधिकांश अनुमान लगाने की आवश्यकता नहीं है। उदाहरण के लिए, त्रुटियों का वितरण अनुमान (परीक्षणों और अंतराल) को प्रभावित करता है, और यह अनुमान की दक्षता को प्रभावित कर सकता है, लेकिन एलएस लाइन अभी भी उदाहरण के लिए सबसे अच्छा रैखिक निष्पक्ष है; इसलिए जब तक कि वितरण इतनी बुरी तरह से गैर-सामान्य नहीं है कि सभी रैखिक अनुमानक खराब हैं, यह जरूरी नहीं है कि त्रुटि शब्द के बारे में मान्यताओं को पकड़ में न रखें।