गैर-सामान्य स्थितियों के लिए, कभी-कभी मजबूत प्रतिगमन का सहारा लेते हैं , विशेष रूप से विधियों के लिंक का उपयोग करते हुए ।
गैर-सामान्यता के लिए संदर्भ प्रस्तुत करने के लिए यह रैखिक ओएलएस प्रतिगमन के लिए मान्यताओं की समीक्षा करने में मदद कर सकता है , जो हैं:
- कमज़ोर विपत्ति । यह अनिवार्य रूप से इसका मतलब है कि भविष्यवक्ता चर, x , को यादृच्छिक चर के बजाय निश्चित मान के रूप में माना जा सकता है। इसका अर्थ है, उदाहरण के लिए, कि भविष्यवक्ता चर को त्रुटि-मुक्त माना जाता है - अर्थात्, माप त्रुटियों से दूषित नहीं होता है। यह धारणा वह है जो सबसे अधिक बार उल्लंघन की जाती है और इस धारणा सूची का अनुसरण करते हुए त्रुटियों की ओर ले जाती है।
- रैखिकता। इसका मतलब यह है कि प्रतिक्रिया चर का मतलब मापदंडों (प्रतिगमन गुणांक) और भविष्यवक्ता चर का एक रैखिक संयोजन है। ध्यान दें कि यह धारणा पहले लगने की तुलना में बहुत कम प्रतिबंधात्मक है। क्योंकि भविष्यवक्ता चर को निश्चित मान (ऊपर देखें) के रूप में माना जाता है, रैखिकता वास्तव में केवल मापदंडों पर प्रतिबंध है। भविष्यवक्ता चर स्वयं मनमाने ढंग से रूपांतरित हो सकते हैं, और वास्तव में एक ही अंतर्निहित भविष्यवक्ता चर की कई प्रतियाँ जोड़ी जा सकती हैं, हर एक अलग रूपांतरित होता है।
- लगातार विचरण (उर्फ होमोसिस्टैसिटी)। इसका मतलब यह है कि प्रतिक्रिया चर के विभिन्न मानों में उनकी त्रुटियों में एक ही भिन्नता है, भविष्यवाणियों के मूल्यों की परवाह किए बिना। व्यवहार में यह धारणा अमान्य है (यदि त्रुटियाँ विषमलैंगिक हैं) यदि प्रतिक्रिया चर व्यापक पैमाने पर भिन्न हो सकती है। विषम त्रुटि विचरण के लिए जाँच करने के लिए, या जब अवशिष्ट का एक पैटर्न समरूपता की मॉडल मान्यताओं का उल्लंघन करता है ( एक्स के सभी बिंदुओं के लिए त्रुटि 'सबसे अच्छी-फिटिंग लाइन' के चारों ओर समान रूप से परिवर्तनशील है)), अवशिष्ट त्रुटि और अनुमानित मूल्यों के बीच "फैनिंग प्रभाव" की तलाश करना समझदारी है। यह कहना है कि भविष्यवाणियों के खिलाफ साजिश रचने पर पूर्ण या चुकता अवशिष्टों में एक व्यवस्थित परिवर्तन होगा। प्रतिगमन लाइन में त्रुटियां समान रूप से वितरित नहीं की जाएंगी। Heteroscedasticity अंक के चारों ओर अलग-अलग भिन्नताओं के औसत में परिणाम देगा, एक एकल विचरण पाने के लिए जो गलत तरीके से लाइन के सभी संस्करणों का प्रतिनिधित्व कर रहा है। वास्तव में, अवशिष्ट दिखाई देते हैं और रेखीय प्रतिगमन रेखा के साथ बिंदुओं के लिए बड़े और छोटे मूल्यों के लिए उनके अनुमानित भूखंडों के अलावा फैल जाते हैं, और मॉडल के लिए औसत चुकता त्रुटि गलत होगी।
- त्रुटियों की स्वतंत्रता। यह मानता है कि प्रतिक्रिया चर की त्रुटियां एक दूसरे के साथ असंबंधित हैं। (वास्तविक सांख्यिकीय स्वतंत्रता सहसंबंध की कमी की तुलना में एक मजबूत स्थिति है और अक्सर इसकी आवश्यकता नहीं होती है, हालांकि इसे रखने के लिए जाना जाता है, तो इसका फायदा उठाया जा सकता है। इस उत्तरार्द्ध को क्लस्टर विश्लेषण और बातचीत के लिए सुधार के साथ जांच की जा सकती है।) कुछ तरीके (जैसे सामान्यीकृत। कम से कम वर्ग) सहसंबद्ध त्रुटियों को संभालने में सक्षम हैं, हालांकि उन्हें आमतौर पर काफी अधिक डेटा की आवश्यकता होती है जब तक कि किसी प्रकार के नियमितीकरण का उपयोग मॉडल को असंबद्ध त्रुटियों को संभालने के लिए पूर्वाग्रह करने के लिए किया जाता है। बायेसियन रैखिक प्रतिगमन इस मुद्दे को संभालने का एक सामान्य तरीका है।
त्रुटि शर्तों और रजिस्टरों के बीच सांख्यिकीय संबंध यह निर्धारित करने में महत्वपूर्ण भूमिका निभाता है कि क्या एक अनुमान प्रक्रिया में निष्पक्ष और सुसंगत होने के रूप में वांछनीय नमूनाकरण गुण हैं।
पूर्वानुमानक चर x की व्यवस्था, या संभाव्यता वितरण का β के अनुमानों की सटीकता पर एक बड़ा प्रभाव है। प्रयोगों का नमूनाकरण और डिजाइन आंकड़ों के अत्यधिक विकसित उप-क्षेत्र हैं जो such का सटीक अनुमान प्राप्त करने के लिए इस तरह से डेटा एकत्र करने के लिए मार्गदर्शन प्रदान करते हैं।
जैसा कि यह उत्तर दिखाता है, सिम्युलेटेड स्टूडेंट की वितरित की गई यैक्सिस त्रुटियों को ओएलएस रिग्रेशन लाइन्स से ढलान और अवरोधन के लिए विश्वास अंतराल के साथ ले जाता है जो कि आकार में वृद्धि के रूप में स्वतंत्रता ( ) में कमी आती है। के लिए , Student's- एक कॉची वितरण और ढलान के लिए विश्वास के अंतराल बन ।tydfdf=1t(−∞,+∞)
यह इस मायने में अवशिष्टों के संबंध में काऊची वितरण को लागू करने के लिए मनमाना है कि जब उत्पन्न करने वाली त्रुटियां कॉची वितरित की जाती हैं, तो डेटा के माध्यम से एक सहज रेखा से ओएलएस अवशिष्ट भी कम विश्वसनीय होगा, अर्थात --- कचरा बाहर। उन मामलों में, कोई भी दील-सेन प्रतिगमन प्रतिगमन का उपयोग कर सकता है । गैर-सामान्य अवशिष्टों के लिए ओएलएस की तुलना में आईआईएल-सेन निश्चित रूप से अधिक मजबूत है, उदाहरण के लिए, कॉची वितरित त्रुटि विश्वास अंतराल को नीचा नहीं करेगी और ओएलएस के विपरीत एक द्विवार्षिक प्रतिगमन भी है, हालांकि बिवरिएट मामले में यह अभी भी पक्षपाती है। पासिंग-बबलोक रिग्रेशन अधिक बेरिवेट निष्पक्ष हो सकता है, लेकिन नकारात्मक प्रतिगमन ढलानों पर लागू नहीं होता है। यह आमतौर पर तरीकों की तुलना अध्ययन के लिए उपयोग किया जाता है। एक डेमिंग प्रतिगमन का उल्लेख करना चाहिएयहाँ, दील-सेन और पासिंग-बबलोक रीग्रेशन्स के विपरीत, यह द्विभाजन समस्या का एक वास्तविक समाधान है, लेकिन उन अन्य रजिस्टरों की मजबूती का अभाव है। अधिक केंद्रीय मानों को शामिल करने के लिए डेटा को छंटनी करके तीव्रता को बढ़ाया जा सकता है, उदाहरण के लिए, यादृच्छिक नमूना सर्वसम्मति (RANSAC) एक अवलोकन मॉडल का एक सेट से गणितीय मॉडल के मापदंडों का अनुमान लगाने के लिए एक पुनरावृत्त विधि है जिसमें आउटलेर शामिल हैं।
फिर क्या है बाइवेरेट रिग्रेशन? समस्याओं के द्विभाजन प्रकृति के लिए परीक्षण की कमी ओएलएस प्रतिगमन कमजोर पड़ने का सबसे लगातार कारण है और इस साइट पर अच्छी तरह से कहीं और प्रस्तुत किया गया है । इस संदर्भ में ओएलएस पूर्वाग्रह की अवधारणा को अच्छी तरह से पहचाना नहीं गया है, उदाहरण के लिए फ्रॉस्ट और थॉम्पसन को लॉन्गफोर्ड एट अल द्वारा प्रस्तुत किया गया है। (2001), जो रीडर को अन्य तरीकों से संदर्भित करता है, चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है , ताकि कोई पूर्वाग्रह उत्पन्न न हो । दूसरे शब्दों में, द्विभाजक मामले के प्रतिगमन को कभी-कभी अनदेखा नहीं किया जा सकता है जब दोनों - औरx1 x y x y y 2 x y x y = f ( x )1xy-विमानों को बेतरतीब ढंग से वितरित किया जाता है। डेटा के एक ओएलएस प्रतिगमन से अवशेषों के लिए ओएलएस प्रतिगमन लाइन को फिट करके बाईवेरिएट रिग्रेशन की आवश्यकता का परीक्षण किया जा सकता है। फिर, यदि ओएलएस अवशिष्ट में एक गैर-शून्य ढलान है, तो समस्या द्विभाजित है और डेटा के ओएलएस प्रतिगमन में एक ढलान परिमाण होगा जो बहुत उथला है, और एक अवरोधन जो कार्यात्मक संबंध के प्रतिनिधि होने के लिए परिमाण में बहुत बड़ा है। और बीच । उन मामलों में, की आकलनकर्ता रैखिक कम से कम त्रुटि वास्तव में -values अभी भी OLS प्रतिगमन से हो सकता है, और उसके आर -value एक अधिकतम संभव मूल्य पर होगा, लेकिन OLS प्रतिगमन लाइन वास्तविक लाइन समारोह है कि संबंधित है प्रतिनिधित्व नहीं होगा औरxyy2xy यादृच्छिक चर। एक काउंटर उदाहरण के रूप में, जब, जैसा कि समवर्ती रूल्स के साथ समय श्रृंखला में अन्य समस्याओं के बीच होता है , कच्चे डेटा का ओएलएस हमेशा अनुचित नहीं होता है, यह सबसे अच्छा लाइन का प्रतिनिधित्व कर सकता है , लेकिन अभी भी इसके अधीन है चर परिवर्तन, उदाहरण के लिए, गणना डेटा के लिए, पॉसों के लिए त्रुटियों को बदलने के लिए काउंट्स के वर्गमूल को सामान्य स्थितियों में त्रुटि को वितरित करने के लिए ले जाएगा, और एक को अभी भी अवशिष्ट के गैर-शून्य ढलान के लिए जांचना चाहिए। xy=f(x)
- लॉन्गफोर्ड, एनटी (2001)। "पत्र - व्यवहार"। रॉयल स्टैटिस्टिकल सोसाइटी की पत्रिका, श्रृंखला ए 164: 565. doi: 10.1111 / 1467-985x.00219