जब ओएलएस अवशिष्ट सामान्य रूप से वितरित नहीं किए जाते हैं तो प्रतिगमन


43

इस साइट पर कई सूत्र हैं जो यह निर्धारित करते हैं कि कैसे निर्धारित किया जाए कि ओएलएस अवशिष्ट को एसिम्पोटिक रूप से सामान्य रूप से वितरित किया गया है। आर कोड के साथ अवशेषों की सामान्यता का मूल्यांकन करने का एक और तरीका इस उत्कृष्ट उत्तर में प्रदान किया गया है । मानकीकृत और देखे गए अवशेषों के बीच व्यावहारिक अंतर पर यह एक और चर्चा है।

लेकिन मान लें कि अवशिष्ट निश्चित रूप से सामान्य रूप से वितरित नहीं हैं, जैसे कि इस उदाहरण में । यहाँ हमारे पास कई हज़ार अवलोकन हैं और स्पष्ट रूप से हमें सामान्य रूप से वितरित-अवशिष्ट धारणा को अस्वीकार करना चाहिए। समस्या का समाधान करने का एक तरीका यह है कि उत्तर में बताए गए कुछ मजबूत अनुमानक को नियोजित किया जाए। हालांकि मैं ओएलएस तक सीमित नहीं हूं और तथ्यों में मैं अन्य चमक या गैर-रेखीय पद्धति के लाभों को समझना चाहूंगा।

अवशिष्ट धारणा के ओएलएस सामान्यता का उल्लंघन करने वाले डेटा मॉडल का सबसे कुशल तरीका क्या है? या कम से कम एक ध्वनि प्रतिगमन विश्लेषण पद्धति विकसित करने के लिए पहला कदम क्या होना चाहिए?


5
कई धागे भी चर्चा करते हैं कि सामान्यता कई उद्देश्यों के लिए अनिवार्य रूप से अप्रासंगिक है। यदि आपके पास स्वतंत्र अवलोकन हैं, और कम से कम मध्यम नमूना आकार है, तो केवल एक चीज जो ओएलएस इंजेक्शन के लिए मायने रखती है, वह यह है कि सभी अवशेषों का एक ही रूप है। सामान्यता नहीं। यदि आप मानक त्रुटि के मजबूत / विषमकोण-समरूपता / सैंडविच / ह्यूबर-इकर-व्हाइट का उपयोग करते हैं तो भी निरंतर विचरण की आवश्यकता नहीं है।
अतिथि

@guest मैं केवल उस थ्रेड में सामान्यता परीक्षण दक्षता के बारे में पढ़ रहा हूं। प्रतिगमन विश्लेषण भी टैग नहीं किया गया है।
रॉबर्ट कुब्रिक

यह एक कोशिश करो । यहाँ एक बाहरी लिंक है । और उदाहरण के लिए स्टॉक और वॉटसन के ओएलएस अध्याय, इकोनोमेट्रिक्स का परिचय देखें । मैं कसम खाता हूँ कि मैं यह सामान नहीं बना रहा हूँ!
अतिथि

@guest परिणामों के सामान्य वितरण के साथ दो लिंक सौदा करते हैं, अवशिष्ट नहीं।
रॉबर्ट कुबरिक

1
नहीं, वे नहीं। लेखक अक्सर "एक्स पर वाई सशर्त के वितरण" के लिए शॉर्टहैंड के रूप में "वाई के वितरण" को संदर्भित करते हैं। अपने मूल प्रश्न पर वापस जाने के लिए; जब तक आपके पास एक छोटा सा नमूना या बड़े पैमाने पर भारी पूंछ वाला डेटा नहीं होता है, मजबूत मानक त्रुटियों के साथ ओएलएस का उपयोग एक अच्छा पहला कदम है। इन मामलों में सामान्यता केवल एक गैर-मुद्दा है।
अतिथि

जवाबों:


53

गैर-सामान्य त्रुटियों के सामने साधारण न्यूनतम वर्ग अनुमान अभी भी एक उचित अनुमानक है। विशेष रूप से, गॉस-मार्कोव प्रमेय में कहा गया है कि साधारण कम से कम वर्गों का अनुमान प्रतिगमन गुणांकों का सबसे अच्छा रैखिक निष्पक्ष अनुमानक (BLUE) है ('सर्वश्रेष्ठ' का अर्थ है, अधिकतम त्रुटि त्रुटियों को कम करने के मामले में इष्टतम )।

(१) का अर्थ शून्य है

(२) असंबद्ध

(३) निरंतर विचरण है

ध्यान दें कि यहां सामान्यता की कोई स्थिति नहीं है (या यहां तक ​​कि किसी भी स्थिति में त्रुटियाँ आईआईडी हैं )।

जब आप आत्मविश्वास अंतराल और / या अंतराल प्राप्त करने की कोशिश कर रहे हैं तो सामान्यता की स्थिति खेलने में आती है । @MichaelChernick में उल्लेख किया गया है (+1, btw) जब आप ग़ैर-सामान्य होते हैं, तब तक आप मजबूत अनुमान का उपयोग कर सकते हैं, जब तक कि सामान्यता से प्रस्थान को विधि द्वारा संभाला जा सकता है - उदाहरण के लिए, (जैसा कि हमने इस धागे में चर्चा की ) ह्यूबर -स्टीमेटर मजबूत निष्कासन प्रदान कर सकता है जब सच्ची त्रुटि वितरण सामान्य और लंबी पूंछ वाले वितरण (जो आपका उदाहरण दिखता है) के बीच का मिश्रण है, लेकिन सामान्यता से अन्य प्रस्थान के लिए सहायक नहीं हो सकता है। एक दिलचस्प संभावना यह है कि माइकल ऑल्यूड्स ऑल्ट्स अनुमानों के लिए विश्वास अंतराल प्राप्त करने के लिए बूटस्ट्रैपिंग कर रहा है और यह देखता है कि यह ह्यूबर-आधारित अनुमान के साथ तुलना कैसे करता है।एमpM

संपादित करें: मैंने अक्सर यह सुना है कि आप गैर-सामान्य त्रुटियों का ध्यान रखने के लिए केंद्रीय सीमा प्रमेय पर भरोसा कर सकते हैं - यह हमेशा सच नहीं होता है (मैं सिर्फ उन समकक्षों के बारे में बात नहीं कर रहा हूं जहां प्रमेय विफल रहता है)। में वास्तविक डेटा उदाहरण ओपी को संदर्भित करता है, हम एक बड़े नमूना आकार है, लेकिन एक लंबी पूंछ त्रुटि वितरण का सबूत देख सकते हैं - स्थितियों में, जहां आप लंबे समय त्रुटियों पूंछ है में, आप आवश्यक रूप देने की केंद्रीय सीमा प्रमेय पर भरोसा नहीं कर सकते आप यथार्थवादी परिमित नमूना आकारों के लिए लगभग निष्पक्ष निष्कर्ष निकालते हैं। उदाहरण के लिए, यदि त्रुटियां डिग्री स्वतंत्रता के साथ एक distribution का पालन करती हैं (जो स्पष्ट रूप से अधिक नहीं है2.01t2.01 ओपी के आंकड़ों में देखी गई त्रुटियों की तुलना में लंबे समय तक टिके), गुणांक अनुमानों को सामान्य रूप से वितरित किया जाता है, लेकिन अन्य छोटे पूंछ वाले वितरणों की तुलना में इसे "किक" करने में अधिक समय लगता है।

नीचे, मैं एक क्रूड सिमुलेशन के साथ प्रदर्शित करता हूं, Rजब , जहां , वितरण। अभी भी काफी लंबा भी पूंछ जब नमूने का आकार है :ε मैं ~ टी 2.01 β 1 एन = 4000yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

यहाँ छवि विवरण दर्ज करें


2
+1, यह विषय का एक बहुत अच्छा अवलोकन है। मैं विशेष रूप से संपादन की सराहना करता हूं। क्या बारे में कुछ खास है ? यह बहुत विशिष्ट लगता है। df=2.01
गूँज - मोनिका

2
@ शुंग, धन्यवाद - मैंने चुना क्योंकि distributed यादृच्छिक चर का विचलन तब मौजूद नहीं होता जब और इसलिए केंद्रीय सीमा प्रमेय लागू नहीं होता। टी 2df=2.01tdf2
मैक्रों

1
@guest, यह केवल दिखाने के लिए एक विरोधाभासी उदाहरण था कि जब आप लंबे समय तक गलतियाँ करते हैं तो आप CLT पर आँख बंद करके भरोसा नहीं कर सकते। मैं मानता हूं कि यह कई अनुप्रयोगों के लिए चरम है, लेकिन उदाहरण में ( आंकड़े ।stackexchange.com/questions/29636/… ) ओपी को संदर्भित किया गया है, डेटा एक बहुत लंबी पूंछ वाले त्रुटि वितरण को दर्शाता है - आकार से थोड़ा अलग है वितरण, लेकिन यह स्पष्ट रूप से कम लंबी पूंछ वाला नहीं है, और इसने वास्तविक डेटा के परिणामस्वरूप किया। मैंने इसे हाइलाइट करने के लिए अपना "संपादन" संपादित किया। t2.01
मैक्रो

2
@ मैक्रो, मैं सीएलटी के अंधे उपयोग के बारे में सहमत हूं। लेकिन विश्वास के अंतराल और के लिए सामान्य डेटा की आवश्यकता होती है -values - और न सिर्फ प्रकाश पूंछ डेटा की आवश्यकता होती है - कि उत्पादन का सिर्फ मेकअप व्याख्या कठिन काफी overkill है, और जैसे उलटा-सामान्य रूपांतरण को प्रोत्साहित करती है,। हड़ताल का संतुलन सही प्रश्न का उत्तर देने के बीच है; यदि दाईं ओर जनसंख्या की तुलना शामिल है, तो OLS का उपयोग करने का सही तरीका है। p
अतिथि

2
@guest, मैं कभी भी OLS के खिलाफ बहस नहीं कर रहा था। वास्तव में, मुझे लगता है कि मेरे उत्तर का एक बड़ा हिस्सा यह था कि किसी भी वितरण संबंधी मान्यताओं की परवाह किए बिना ओएलएस एक उचित बात थी। मैंने यह भी कभी तर्क नहीं दिया कि सख्त सामान्यता का निष्कर्ष निकालने के लिए पालन किया जाना चाहिए - मैं जो कह रहा हूं वह है, जब आपके पास लंबी पूंछ वाली त्रुटियां हैं, तो सामान्य सन्निकटन के आधार पर अनुमान भ्रामक हो सकता है (मुझे यकीन नहीं है कि / यह इस तरह कैसे भंग होता है) सभी जो आप कह रहे हैं) और एक विकल्प पर विचार करने के लिए अच्छी तरह से सलाह दी जाएगी (जैसे बूटस्ट्रैप)। ।
मैक्रो

10

मुझे लगता है कि आप अवशिष्ट के सभी गुणों को देखना चाहते हैं।

  1. साधारण अवस्था
  2. निरंतर विचरण
  3. एक सहसंयोजक से संबंधित।
  4. उपरोक्त का संयोजन

यदि यह सिर्फ 1 है और यह एक भारी पूंछ के कारण हेवीटेल या तिरछा होने के कारण है, तो मजबूत प्रतिगमन एक अच्छा दृष्टिकोण या संभवतः सामान्यता में परिवर्तन हो सकता है। यदि यह एक गैर-स्थिर विचरण है, तो परिवर्तन को स्थिर करने के लिए विचरण को स्थिर करने का प्रयास करें या विचरण फ़ंक्शन को मॉडल करने का प्रयास करें। यदि यह सिर्फ 3 है जो मॉडल के एक अलग रूप का सुझाव देता है जिसमें उस कोवरिएट शामिल है। वेक्टर्स या रिड्यूज को बूट करने वाली समस्या हमेशा एक विकल्प होती है।


1 के लिए, क्या आप भारी पूंछ वाले अवशेषों के लिए सामान्यता में परिवर्तन के बारे में थोड़ा विस्तार कर सकते हैं?
रॉबर्ट कुब्रिक

2
छोटे लैंबडा के साथ लॉग ट्रांसफॉर्मेशन या बॉक्स-कॉक्स पूंछ को सिकोड़ते हैं। यह कुछ भारी और तिरछे वितरण के लिए काम कर सकता है। मुझे नहीं पता कि क्या कोई परिवर्तन बहुत भारी पूंछ वाले वितरण के लिए काम करेगा।
माइकल चेरिक

3
अच्छा जवाब माइकल। मैंने रिग्रेस अनुमान और सामान्य विरोधाभासों को शामिल करने के लिए अंतराल अंतराल के लिए बूटस्ट्रैप का अधिक नियमित उपयोग करना शुरू कर दिया है, और अपने आर rmsपैकेज में ऐसा करना आसान बना दिया है । लेकिन जैसा कि आपने सुझाव दिया था, एक परिवर्तन खोजना जो विचरण स्थिरता में सुधार करता है और कभी-कभी अवशिष्ट की सामान्यता में सुधार करता है, अक्सर कई फायदे होते हैं, भले ही हम बूटस्ट्रैप करें। "गलत" परिवर्तन का उपयोग करते हुए कम से कम वर्गों का अनुमान बहुत अक्षम हो सकता है और भविष्यवाणियों में बड़े और निरपेक्ष और औसत निरपेक्ष त्रुटियों का कारण बन सकता है। मुझे सेमीपैरमेट्रिक रिग्रेशन मॉडल का उपयोग करना भी पसंद है।
फ्रैंक हरेल

2

मेरा अनुभव पूरी तरह से माइकल चेर्निक के अनुरूप है। न केवल कई बार डेटा परिवर्तन लागू करने से मॉडलिंग की त्रुटि सामान्य रूप से वितरित हो जाती है, बल्कि यह हेटेरोसेडासिटी को भी सही कर सकता है।

क्षमा करें, लेकिन यह सुझाव देने के लिए कि अन्यथा डेटा की एक पागल राशि इकट्ठा करना, या कम कुशल मजबूत प्रतिगमन विधियों को नियोजित करना, मेरी विज्ञान / कला का अभ्यास करने में, मेरी राय में गलत है।


1

मैक्रो (ऊपर jsut) ने सही उत्तर बताया। बस कुछ सटीक क्योंकि मैं एक ही सवाल था

अवशिष्टों की सामान्यता की स्थिति उपयोगी होती है जब अवशिष्ट भी होमोसैकेस्टिक होते हैं। परिणाम तब होता है कि ओएलएस में अनुमानक (रैखिक या गैर-रैखिक) के सभी के बीच सबसे छोटा विचरण होता है ।

विस्तारित ओएलएस धारणाएं:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n,
  3. बड़े आउटलेयर दुर्लभ हैं
  4. आप होमोसैकेस्टिक हैं
  5. यू को वितरित किया गया हैN(0,σ2)

यदि 1-5 सत्यापित किया गया है, तो ओएलएस में अनुमानक (रैखिक या गैर-रैखिक) के सभी के बीच सबसे छोटा विचरण होता है ।

यदि केवल 1-4 सत्यापित है, तो गॉस-मार्कोव द्वारा, ओएलएस सबसे अच्छा रैखिक (केवल!) अनुमानक (BLUE) है।

स्रोत: स्टॉक एंड वॉटसन, इकोनोमेट्रिक्स + मेरा कोर्स (ईपीएफएल, इकोनोमेट्रिक्स)


Y अवशिष्टों में सामान्य कम से कम वर्गों के लिए सामान्यता की कोई आवश्यकता नहीं है, हालांकि सामान्यता कुछ वांछनीय गुणों को स्वीकार करती है, उदाहरण के लिए, अधिकतम संभावना विश्लेषण के लिए। उत्तरार्द्ध अक्सर अकाइक सूचना मानदंड के लिए उपयोग किया जाता है। हालांकि, यह अनावश्यक रूप से प्रतिबंधित है, असीम रूप से सामना किया गया है, और अधिक औपचारिक आवश्यकता समरूपता के लिए है, न कि सामान्यता, जो कि भाग्यशाली है क्योंकि इसके विपरीत मामले में, वाई में सामान्य कम से कम वर्गों के लिए बहुत कम उपयोग होगा।
कार्ल

@ कार्ल: सख्ती से बोलना ओएलएस के लिए किसी भी प्रकार की आवश्यकता नहीं है, यहां तक ​​कि 1 या 2 भी नहीं (एक्सेल को प्रतिगमन चलाने के लिए कहें और यह कोई सवाल नहीं पूछा जाएगा): सामान्यता कई गुणों में से एक है जो अनुमान को समझदार बना देती है, जैसे कि भविष्यवाणी, आत्मविश्वास अंतराल, परीक्षण।
PatrickT

@PatrickT कुछ गणना करने की क्षमता अर्थ प्रदान नहीं करती है। उदाहरण के लिए, कॉची वितरित -value त्रुटियों के साथ एक पंक्ति के बारे में ओएलएस रैखिक प्रतिगमन CI की ढलान को बढ़ाता है और लगभग किसी भी चीज को स्वीकार करने के लिए अवरोधन करता है, यह मूल रेखा या ढलान वापस नहीं करता है। कोई इसे एक पिरामिड गणना कह सकता है। y
कार्ल

हम एक ही बात कह रहे होंगे। शायद आपकी पहली टिप्पणी के वाक्यांश ने मुझे भ्रमित कर दिया।
पैट्रिकटी

1

गैर-सामान्य स्थितियों के लिए, कभी-कभी मजबूत प्रतिगमन का सहारा लेते हैं , विशेष रूप से विधियों के लिंक का उपयोग करते हुए ।

गैर-सामान्यता के लिए संदर्भ प्रस्तुत करने के लिए यह रैखिक ओएलएस प्रतिगमन के लिए मान्यताओं की समीक्षा करने में मदद कर सकता है , जो हैं:

  • कमज़ोर विपत्ति । यह अनिवार्य रूप से इसका मतलब है कि भविष्यवक्ता चर, x , को यादृच्छिक चर के बजाय निश्चित मान के रूप में माना जा सकता है। इसका अर्थ है, उदाहरण के लिए, कि भविष्यवक्ता चर को त्रुटि-मुक्त माना जाता है - अर्थात्, माप त्रुटियों से दूषित नहीं होता है। यह धारणा वह है जो सबसे अधिक बार उल्लंघन की जाती है और इस धारणा सूची का अनुसरण करते हुए त्रुटियों की ओर ले जाती है।
  • रैखिकता। इसका मतलब यह है कि प्रतिक्रिया चर का मतलब मापदंडों (प्रतिगमन गुणांक) और भविष्यवक्ता चर का एक रैखिक संयोजन है। ध्यान दें कि यह धारणा पहले लगने की तुलना में बहुत कम प्रतिबंधात्मक है। क्योंकि भविष्यवक्ता चर को निश्चित मान (ऊपर देखें) के रूप में माना जाता है, रैखिकता वास्तव में केवल मापदंडों पर प्रतिबंध है। भविष्यवक्ता चर स्वयं मनमाने ढंग से रूपांतरित हो सकते हैं, और वास्तव में एक ही अंतर्निहित भविष्यवक्ता चर की कई प्रतियाँ जोड़ी जा सकती हैं, हर एक अलग रूपांतरित होता है।
  • लगातार विचरण (उर्फ होमोसिस्टैसिटी)। इसका मतलब यह है कि प्रतिक्रिया चर के विभिन्न मानों में उनकी त्रुटियों में एक ही भिन्नता है, भविष्यवाणियों के मूल्यों की परवाह किए बिना। व्यवहार में यह धारणा अमान्य है (यदि त्रुटियाँ विषमलैंगिक हैं) यदि प्रतिक्रिया चर व्यापक पैमाने पर भिन्न हो सकती है। विषम त्रुटि विचरण के लिए जाँच करने के लिए, या जब अवशिष्ट का एक पैटर्न समरूपता की मॉडल मान्यताओं का उल्लंघन करता है ( एक्स के सभी बिंदुओं के लिए त्रुटि 'सबसे अच्छी-फिटिंग लाइन' के चारों ओर समान रूप से परिवर्तनशील है)), अवशिष्ट त्रुटि और अनुमानित मूल्यों के बीच "फैनिंग प्रभाव" की तलाश करना समझदारी है। यह कहना है कि भविष्यवाणियों के खिलाफ साजिश रचने पर पूर्ण या चुकता अवशिष्टों में एक व्यवस्थित परिवर्तन होगा। प्रतिगमन लाइन में त्रुटियां समान रूप से वितरित नहीं की जाएंगी। Heteroscedasticity अंक के चारों ओर अलग-अलग भिन्नताओं के औसत में परिणाम देगा, एक एकल विचरण पाने के लिए जो गलत तरीके से लाइन के सभी संस्करणों का प्रतिनिधित्व कर रहा है। वास्तव में, अवशिष्ट दिखाई देते हैं और रेखीय प्रतिगमन रेखा के साथ बिंदुओं के लिए बड़े और छोटे मूल्यों के लिए उनके अनुमानित भूखंडों के अलावा फैल जाते हैं, और मॉडल के लिए औसत चुकता त्रुटि गलत होगी।
  • त्रुटियों की स्वतंत्रता। यह मानता है कि प्रतिक्रिया चर की त्रुटियां एक दूसरे के साथ असंबंधित हैं। (वास्तविक सांख्यिकीय स्वतंत्रता सहसंबंध की कमी की तुलना में एक मजबूत स्थिति है और अक्सर इसकी आवश्यकता नहीं होती है, हालांकि इसे रखने के लिए जाना जाता है, तो इसका फायदा उठाया जा सकता है। इस उत्तरार्द्ध को क्लस्टर विश्लेषण और बातचीत के लिए सुधार के साथ जांच की जा सकती है।) कुछ तरीके (जैसे सामान्यीकृत। कम से कम वर्ग) सहसंबद्ध त्रुटियों को संभालने में सक्षम हैं, हालांकि उन्हें आमतौर पर काफी अधिक डेटा की आवश्यकता होती है जब तक कि किसी प्रकार के नियमितीकरण का उपयोग मॉडल को असंबद्ध त्रुटियों को संभालने के लिए पूर्वाग्रह करने के लिए किया जाता है। बायेसियन रैखिक प्रतिगमन इस मुद्दे को संभालने का एक सामान्य तरीका है।
  • त्रुटि शर्तों और रजिस्टरों के बीच सांख्यिकीय संबंध यह निर्धारित करने में महत्वपूर्ण भूमिका निभाता है कि क्या एक अनुमान प्रक्रिया में निष्पक्ष और सुसंगत होने के रूप में वांछनीय नमूनाकरण गुण हैं।

  • पूर्वानुमानक चर x की व्यवस्था, या संभाव्यता वितरण का β के अनुमानों की सटीकता पर एक बड़ा प्रभाव है। प्रयोगों का नमूनाकरण और डिजाइन आंकड़ों के अत्यधिक विकसित उप-क्षेत्र हैं जो such का सटीक अनुमान प्राप्त करने के लिए इस तरह से डेटा एकत्र करने के लिए मार्गदर्शन प्रदान करते हैं।

जैसा कि यह उत्तर दिखाता है, सिम्युलेटेड स्टूडेंट की वितरित की गई यैक्सिस त्रुटियों को ओएलएस रिग्रेशन लाइन्स से ढलान और अवरोधन के लिए विश्वास अंतराल के साथ ले जाता है जो कि आकार में वृद्धि के रूप में स्वतंत्रता ( ) में कमी आती है। के लिए , Student's- एक कॉची वितरण और ढलान के लिए विश्वास के अंतराल बन ।tydfdf=1t(,+)

यह इस मायने में अवशिष्टों के संबंध में काऊची वितरण को लागू करने के लिए मनमाना है कि जब उत्पन्न करने वाली त्रुटियां कॉची वितरित की जाती हैं, तो डेटा के माध्यम से एक सहज रेखा से ओएलएस अवशिष्ट भी कम विश्वसनीय होगा, अर्थात --- कचरा बाहर। उन मामलों में, कोई भी दील-सेन प्रतिगमन प्रतिगमन का उपयोग कर सकता है । गैर-सामान्य अवशिष्टों के लिए ओएलएस की तुलना में आईआईएल-सेन निश्चित रूप से अधिक मजबूत है, उदाहरण के लिए, कॉची वितरित त्रुटि विश्वास अंतराल को नीचा नहीं करेगी और ओएलएस के विपरीत एक द्विवार्षिक प्रतिगमन भी है, हालांकि बिवरिएट मामले में यह अभी भी पक्षपाती है। पासिंग-बबलोक रिग्रेशन अधिक बेरिवेट निष्पक्ष हो सकता है, लेकिन नकारात्मक प्रतिगमन ढलानों पर लागू नहीं होता है। यह आमतौर पर तरीकों की तुलना अध्ययन के लिए उपयोग किया जाता है। एक डेमिंग प्रतिगमन का उल्लेख करना चाहिएयहाँ, दील-सेन और पासिंग-बबलोक रीग्रेशन्स के विपरीत, यह द्विभाजन समस्या का एक वास्तविक समाधान है, लेकिन उन अन्य रजिस्टरों की मजबूती का अभाव है। अधिक केंद्रीय मानों को शामिल करने के लिए डेटा को छंटनी करके तीव्रता को बढ़ाया जा सकता है, उदाहरण के लिए, यादृच्छिक नमूना सर्वसम्मति (RANSAC) एक अवलोकन मॉडल का एक सेट से गणितीय मॉडल के मापदंडों का अनुमान लगाने के लिए एक पुनरावृत्त विधि है जिसमें आउटलेर शामिल हैं।

फिर क्या है बाइवेरेट रिग्रेशन? समस्याओं के द्विभाजन प्रकृति के लिए परीक्षण की कमी ओएलएस प्रतिगमन कमजोर पड़ने का सबसे लगातार कारण है और इस साइट पर अच्छी तरह से कहीं और प्रस्तुत किया गया है । इस संदर्भ में ओएलएस पूर्वाग्रह की अवधारणा को अच्छी तरह से पहचाना नहीं गया है, उदाहरण के लिए फ्रॉस्ट और थॉम्पसन को लॉन्गफोर्ड एट अल द्वारा प्रस्तुत किया गया है। (2001), जो रीडर को अन्य तरीकों से संदर्भित करता है, चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है , ताकि कोई पूर्वाग्रह उत्पन्न न हो । दूसरे शब्दों में, द्विभाजक मामले के प्रतिगमन को कभी-कभी अनदेखा नहीं किया जा सकता है जब दोनों - औरx1 x y x y y 2 x y x y = f ( x )1xy-विमानों को बेतरतीब ढंग से वितरित किया जाता है। डेटा के एक ओएलएस प्रतिगमन से अवशेषों के लिए ओएलएस प्रतिगमन लाइन को फिट करके बाईवेरिएट रिग्रेशन की आवश्यकता का परीक्षण किया जा सकता है। फिर, यदि ओएलएस अवशिष्ट में एक गैर-शून्य ढलान है, तो समस्या द्विभाजित है और डेटा के ओएलएस प्रतिगमन में एक ढलान परिमाण होगा जो बहुत उथला है, और एक अवरोधन जो कार्यात्मक संबंध के प्रतिनिधि होने के लिए परिमाण में बहुत बड़ा है। और बीच । उन मामलों में, की आकलनकर्ता रैखिक कम से कम त्रुटि वास्तव में -values अभी भी OLS प्रतिगमन से हो सकता है, और उसके आर -value एक अधिकतम संभव मूल्य पर होगा, लेकिन OLS प्रतिगमन लाइन वास्तविक लाइन समारोह है कि संबंधित है प्रतिनिधित्व नहीं होगा औरxyy2xy यादृच्छिक चर। एक काउंटर उदाहरण के रूप में, जब, जैसा कि समवर्ती रूल्स के साथ समय श्रृंखला में अन्य समस्याओं के बीच होता है , कच्चे डेटा का ओएलएस हमेशा अनुचित नहीं होता है, यह सबसे अच्छा लाइन का प्रतिनिधित्व कर सकता है , लेकिन अभी भी इसके अधीन है चर परिवर्तन, उदाहरण के लिए, गणना डेटा के लिए, पॉसों के लिए त्रुटियों को बदलने के लिए काउंट्स के वर्गमूल को सामान्य स्थितियों में त्रुटि को वितरित करने के लिए ले जाएगा, और एक को अभी भी अवशिष्ट के गैर-शून्य ढलान के लिए जांचना चाहिए। xy=f(x)

  1. लॉन्गफोर्ड, एनटी (2001)। "पत्र - व्यवहार"। रॉयल स्टैटिस्टिकल सोसाइटी की पत्रिका, श्रृंखला ए 164: 565. doi: 10.1111 / 1467-985x.00219
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.