कई प्रतिगमन की मान्यताएं: सामान्यता धारणा निरंतर विचरण धारणा से अलग कैसे है?


20

मैंने पढ़ा कि ये कई प्रतिगमन मॉडल का उपयोग करने की शर्तें हैं:

  1. मॉडल के अवशेष लगभग सामान्य हैं,
  2. अवशिष्टों की परिवर्तनशीलता लगभग स्थिर है
  3. अवशिष्ट स्वतंत्र हैं, और
  4. प्रत्येक चर रैखिक रूप से परिणाम से संबंधित होता है।

1 और 2 कैसे अलग हैं?

आप यहाँ एक देख सकते हैं:

यहां छवि विवरण दर्ज करें

तो उपरोक्त ग्राफ का कहना है कि 2 मानक विचलन जो अवशिष्ट है, वाई-हैट से 10 दूर है। इसका मतलब है कि अवशिष्ट सामान्य वितरण का पालन करते हैं। क्या आप इससे 2 अनुमान नहीं लगा सकते? अवशिष्टों की परिवर्तनशीलता लगभग स्थिर है?


7
मैं तर्क दूंगा कि उन लोगों का आदेश गलत है। महत्व के क्रम में मैं कहूंगा 4, 3, 2, 1. इस तरह, प्रत्येक अतिरिक्त धारणा मॉडल को समस्याओं के एक बड़े सेट को हल करने के लिए उपयोग करने की अनुमति देती है, जैसा कि आपके प्रश्न में आदेश के विपरीत है, जहां सबसे अधिक प्रतिबंधात्मक धारणा है पहला है।
मैथ्यू ड्र्यू

2
इन मान्यताओं के लिए आवश्यक हैं आँकड़ों के लिए। चुकता त्रुटियों के योग के लिए कोई धारणा नहीं बनाई गई है।
डेविड लेन

1
मेरा मानना ​​है कि मेरा मतलब था 1, 3, 2, 4. 1 मॉडल के लिए कम से कम लगभग पूरा होना चाहिए, मॉडल के अनुरूप होने के लिए 3 की आवश्यकता होती है, अर्थात जब आप अधिक डेटा प्राप्त करते हैं, तो कुछ स्थिर करने के लिए अभिसरण करें। , 2 के आकलन के लिए कुशल होने की आवश्यकता है, अर्थात डेटा को एक ही लाइन का अनुमान लगाने के लिए उपयोग करने के लिए कोई अन्य बेहतर तरीका नहीं है, और अनुमानित मापदंडों पर परिकल्पना परीक्षण चलाने के लिए कम से कम लगभग 4 की आवश्यकता है।
मैथ्यू ड्र्यू

3
ए। गेलमैन के ब्लॉग-पोस्ट पर अप्रचलित लिंक रैखिक प्रतिगमन की प्रमुख धारणाएं क्या हैं?
us --r11852 का कहना है कि

2
कृपया अपने आरेख के लिए एक स्रोत दें यदि यह आपका अपना काम नहीं है।
निक कॉक्स

जवाबों:


44

1. अवशेषों का सामान्य वितरण :

जब आप आत्मविश्वास अंतराल और / या पी-मान प्राप्त करने की कोशिश कर रहे हैं तो सामान्यता की स्थिति खेलने में आती है।

एक नहीं हैगॉस मार्कोव हालतε|XN(0,σ2In)


यहां छवि विवरण दर्ज करें

यह प्लॉट नीले रंग में आबादी में अंकों के वितरण को समझने की कोशिश करता है (जनसंख्या प्रतिगमन रेखा के रूप में एक ठोस सियान लाइन के रूप में), बड़े पीले डॉट्स में एक नमूना डेटासेट पर आरोपित (इसकी अनुमानित प्रतिगमन रेखा के साथ धराशायी पीली रेखा के रूप में)। जाहिर तौर पर यह केवल वैचारिक खपत के लिए है, क्योंकि प्रत्येक मूल्य के लिए अनंत बिंदु होंगे - इसलिए यह प्रतिगमन मूल्य की अवधारणा का एक ग्राफिकल आइकोनोग्राफिक विवेकाधिकार है, क्योंकि एक मतलब के आसपास मूल्यों का निरंतर वितरण (अनुमानित मूल्य के अनुरूप) रजिस्ट्रार, या व्याख्यात्मक चर के प्रत्येक दिए गए मूल्य पर "स्वतंत्र" चर)।X=x

यदि हम सिम्युलेटेड "जनसंख्या" डेटा पर डायग्नोस्टिक आर प्लॉट चलाते हैं तो हमें डेटा मिलेगा ...

यहां छवि विवरण दर्ज करें

अवशिष्टों का विचरण एक्स के सभी मूल्यों के साथ स्थिर होता है X.

विशिष्ट साजिश होगी:

यहां छवि विवरण दर्ज करें


वैचारिक रूप से, कई रजिस्टरों या व्याख्यात्मक चर का परिचय विचार में परिवर्तन नहीं करता है। मैं पैकेज के हैंड्स-ऑन ट्यूटोरियल को यह swirl()समझने में बेहद मददगार समझता हूं कि मॉडल में अवशिष्ट, अस्पष्टीकृत भिन्नता को आगे ले जाने के लिए एकाधिक प्रतिगमन एक दूसरे के खिलाफ निर्भर चर को पुन: प्राप्त करने की प्रक्रिया कैसे होती है; या अधिक सरल रूप से, सरल रैखिक प्रतिगमन का एक सदिश रूप :

सामान्य तकनीक एक प्रतिगामी को चुनना है और उस के खिलाफ उनके प्रतिगमन के अवशेषों द्वारा अन्य सभी चर को प्रतिस्थापित करना है।


2. अवशिष्टों की परिवर्तनशीलता लगभग स्थिर है (होमोसकेडिसिटी) :

[εमैं2|एक्स]=σ2

इस स्थिति का उल्लंघन करने की समस्या है:

Heteroskedasticity OLS आकलनकर्ता के लिए गंभीर परिणाम हैं। यद्यपि OLS आकलनकर्ता निष्पक्ष रहता है, अनुमानित SE गलत है। इस वजह से, विश्वास अंतराल और परिकल्पना परीक्षण पर भरोसा नहीं किया जा सकता है। इसके अतिरिक्त, OLS अनुमानक अब BLUE नहीं है।


यहां छवि विवरण दर्ज करें

इस कथानक में प्रतिगमन (व्याख्यात्मक चर) के मूल्यों के साथ विचरण बढ़ता है, जैसा कि स्थिर रहने के विपरीत है। इस मामले में अवशिष्ट सामान्य रूप से वितरित किए जाते हैं, लेकिन व्याख्यात्मक चर के साथ इस सामान्य वितरण के परिवर्तन (वृद्धि) होते हैं।

ध्यान दें कि "सत्य" (जनसंख्या) प्रतिगमन रेखा पहले भूखंड (ठोस गहरे नीले) में समरूपता के तहत जनसंख्या प्रतिगमन रेखा के संबंध में नहीं बदलती है, लेकिन यह सहज रूप से स्पष्ट है कि अनुमान अधिक अनिश्चित होने जा रहे हैं।

डेटासेट पर नैदानिक ​​प्लॉट हैं ...

यहां छवि विवरण दर्ज करें

जो "हेवी-टेल्ड" वितरण के अनुरूप है , जिसका अर्थ है कि हम सभी "साइड-बाय-साइड" वर्टिकल गॉसियन प्लॉट्स को एक ही बार में टेलीस्कोप करने के लिए थे, जो इसकी घंटी के आकार को बनाए रखेगा, लेकिन बहुत लंबी पूंछ हैं।


@Glen_b "... दोनों के बीच अंतर का एक पूर्ण कवरेज भी होमोसकेडस्टिक पर विचार करेगा, लेकिन सामान्य नहीं।"

यहां छवि विवरण दर्ज करें

अवशिष्ट अत्यधिक तिरछे होते हैं और व्याख्यात्मक चर के मूल्यों के साथ विचरण बढ़ता है।

ये होंगे डायग्नोस्टिक प्लॉट ...

यहां छवि विवरण दर्ज करें

चिह्नित सही तिरछा-नेस।

लूप को बंद करने के लिए, हम गैर-गॉसियन वितरण के साथ होमोसकेडस्टिक मॉडल में तिरछा-नेस भी देखेंगे:

यहां छवि विवरण दर्ज करें

नैदानिक ​​भूखंडों के रूप में ...

यहां छवि विवरण दर्ज करें


2
आपका बहुत बहुत धन्यवाद। मैंने महसूस किया कि विज़ुअलाइज़ेशन टूल के रूप में उपयोग की जाने वाली आबादी के सकल विवेक को पाटने की आवश्यकता थी। मैं कोड पोस्ट कर सकता हूं, लेकिन मैं संकोच कर रहा हूं क्योंकि रचनात्मक गणित की कुछ डिग्री थी :-)
एंटोनी परेलाडा

3
दोनों को संतुष्ट करने वाले कथानक को दिखाते हुए और फिर सामान्य-लेकिन-नहीं-होमोसैकेस्टिक को दिखाते हुए सामान्य त्रुटियों और होमोसिस्टैस्टिक त्रुटियों के बीच के अंतर का चित्रण उत्कृष्ट है। मुझे लगता है कि दोनों के बीच भेद का एक पूरा कवरेज भी होमोसैकेस्टिक पर विचार करेगा, लेकिन सामान्य नहीं। [मेरा सुझाव है कि आप इस तरह के दृष्टांत को नहीं जोड़ते हैं, लेकिन लोगों की मान्यताओं पर विचार करते समय उनके दिमाग में इसे रखने के लिए यह एक उपयोगी तीसरा हाथ है।]
Glen_b -Reinstate Monica

7

यह ओपी की गलती नहीं है, लेकिन मैं इस तरह से पढ़ने की गलत जानकारी प्राप्त करना शुरू कर रहा हूं।

मैंने पढ़ा कि ये कई प्रतिगमन मॉडल का उपयोग करने की शर्तें हैं:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

"एकाधिक प्रतिगमन मॉडल" केवल एक लेबल है जो यह घोषित करता है कि एक चर को अन्य चर के एक समारोह के रूप में व्यक्त किया जा सकता है।

न तो सही त्रुटि शब्द और न ही मॉडल के अवशेषों को विशेष रूप से लगभग कुछ भी चाहिए - यदि अवशेष सामान्य दिखते हैं, तो यह बाद के सांख्यिकीय अनुमान के लिए अच्छा है ।

त्रुटि शब्द की परिवर्तनशीलता (विचरण) लगभग स्थिर रहने की आवश्यकता नहीं है - यदि यह नहीं है, तो हमारे पास विषमलैंगिकता वाला एक मॉडल है जो आजकल आसानी से संभाला जाता है।

अवशिष्ट किसी भी मामले में स्वतंत्र नहीं हैं, क्योंकि प्रत्येक पूरे नमूने का एक कार्य है। सच त्रुटि शर्तों स्वतंत्र -यदि वे नहीं हैं हम ऑटो सहसंबंध है, जो, हालांकि अधिक कठिन heteroskedasticity से, एक डिग्री करने के लिए ऊपर से निपटा जा सकता के साथ एक मॉडल है होना आवश्यक नहीं है।

प्रत्येक चर को परिणाम से रैखिक रूप से संबंधित नहीं होना चाहिए। वास्तव में, "रैखिक" और "गैर-रैखिक" प्रतिगमन के बीच अंतर का चर के बीच के संबंध से कोई लेना-देना नहीं है - लेकिन अज्ञात गुणांक रिश्ते में कैसे प्रवेश करते हैं।

कोई क्या कह सकता है कि यदि पहले तीन पकड़ और चौथे को ठीक से कहा गया है, तो हम "शास्त्रीय सामान्य रैखिक प्रतिगमन मॉडल" प्राप्त करते हैं, जो कि कई प्रतिगमन मॉडल का सिर्फ एक (हालांकि ऐतिहासिक रूप से पहला) संस्करण है।


3
एक्सβएक्सβएक्स

2
और यह सवाल बिल्कुल मूलभूत धारणा को याद कर रहा है कि त्रुटि की शर्तों की सशर्त अपेक्षा शून्य है!
मैथ्यू गन

1
@MatthewGunn खैर, ... यह इस मॉडल के साथ जो हम कर रहे हैं, उसके बारे में एक बहुत बड़ी चर्चा को खोलता है: यदि हम "नियतात्मक / इंजीनियरिंग" दृष्टिकोण लेते हैं, तो हमें यह सुनिश्चित करने के लिए इस धारणा की आवश्यकता है कि विशिष्ट अनुपात वास्तव में uderlyinginistic एक है। यदि हम विशिष्ट रजिस्टरों के संबंध में सशर्त अपेक्षा फ़ंक्शन का अनुमान लगाना चाहते हैं , तो कोडन स्वचालित रूप से संतुष्ट है (या कम से कम इसके कमजोर रूप, रूढ़िवादिता)।
एलेकोस पापाडोपोलोस

1
@AlecosPapadopoulos हाँ, एक अर्थ में, साधारण से कम वर्ग हमेशा आपको किसी चीज़ का अनुमान देता है! लेकिन यह वह चीज नहीं हो सकती जो आप चाहते हैं। यदि ओपी को केवल विशिष्ट रजिस्टरों के संबंध में एक रैखिक, सशर्त अपेक्षा समारोह चाहिए, तो मैं मानता हूं कि शर्त स्वतः मान ली गई है। लेकिन अगर ओपी कुछ पैरामीटर का अनुमान लगाने की कोशिश कर रहा है, तो ऑर्थोगोनलिटी की स्थिति को सही ठहराना महत्वपूर्ण है!
मैथ्यू गन

@MatthewGunn वास्तव में, यह निश्चित रूप से ऐसा है।
एलेकोस पापाडोपोलोस

3

एंटनी पारेलाडा का अच्छा चित्रमय चित्रण के साथ एक सही जवाब था।

मैं केवल दो कथनों के बीच अंतर को संक्षेप में बताने के लिए एक टिप्पणी जोड़ना चाहता हूं

  1. मॉडल के अवशेष लगभग सामान्य हैं

  2. अवशिष्टों की परिवर्तनशीलता लगभग स्थिर है

  • कथन 1 अवशिष्ट का " आकार" देता है "घंटी के आकार का वक्र"
  • कथन 2 "आकार" (स्थिर है) के प्रसार को परिष्कृत करता है, एंटोनी परेलाडा के प्लॉट में 3. 3 घंटी के आकार के वक्र हैं, लेकिन वे अलग-अलग फैले हुए हैं।

1

प्रतिगमन मान्यताओं का एक भी अनूठा सेट नहीं है, लेकिन वहाँ कई विविधताएं हैं। इन मान्यताओं के कुछ सेट दूसरों की तुलना में कड़े यानी संकरे हैं। इसके अलावा, ज्यादातर मामलों में आपको ज़रूरत नहीं है और कई मामलों में, वास्तव में यह नहीं मान सकते हैं कि वितरण सामान्य है।

आपके द्वारा उद्धृत की गई धारणाएं सबसे अधिक सख्त हैं, फिर भी वे अनावश्यक रूप से ढीली भाषा में तैयार की जाती हैं। उदाहरण के लिए, वास्तव में लगभग क्या है ? इसके अलावा, यह अवशिष्ट नहीं है पर हम मान्यताओं को लागू करते हैं, यह त्रुटियां हैं । अवशिष्ट, त्रुटियों के अनुमान हैं, जो अवलोकनीय नहीं हैं। यह मुझे बताता है कि आप एक खराब स्रोत से उद्धृत कर रहे हैं। बाहर फेंक दो।

आपके प्रश्न का संक्षिप्त उत्तर यह है कि यदि आप किसी भी वितरण पर विचार करते हैं, उदाहरण के लिए छात्र टी वितरण, आपकी त्रुटियों के लिए (मैं अपने उत्तर में सही शब्द का उपयोग करने जा रहा हूं) तो आप देख सकते हैं कि त्रुटियों में "लगभग स्थिर" भिन्नता कैसे हो सकती है सामान्य वितरण से होने के बिना, और कैसे "लगभग स्थिर" विचरण करने के लिए सामान्य वितरण की आवश्यकता नहीं होती है। दूसरे शब्दों में, नहीं, आप एक अतिरिक्त आवश्यकता के बिना दूसरे से एक धारणा नहीं बना सकते।

yमैं=एक्समैंβ+εमैंεमैं~एन(0,σ2)
  1. एन()
  2. σεमैं
  3. एनएक्स
  4. y=एक्सβ

इसलिए जब हम एक या दो समीकरणों में सभी मान्यताओं को एक साथ जोड़ते हैं, तो ऐसा लग सकता है कि वे सभी एक-दूसरे पर निर्भर हैं, जो सच नहीं है। मैं इसे प्रदर्शित करने जा रहा हूँ।

उदाहरण 1

yमैं=एक्समैंβ+εमैंεमैं~टीν
ν स्वतंत्रता की डिग्री। निश्चित रूप से त्रुटियों का एक निरंतर विचरण होगा, और वे गॉसियन नहीं हैं।

उदाहरण 2

yमैं=एक्समैंβ+εमैंεमैं~एन(0,σ2मैं)
मैं

1

मैंने चर्चा में एक नया आयाम जोड़ने और इसे और अधिक सामान्य बनाने की कोशिश की। कृपया मुझे माफ कर दो अगर बहुत अल्पविकसित था।

एक प्रतिगमन मॉडल सांख्यिकीय संबंध के दो आवश्यक अवयवों को व्यक्त करने का एक औपचारिक साधन है:

  1. Yएक्स
  2. एक अंक के प्रकीर्णन सांख्यिकीय रिश्ते की वक्र के आसपास।

Y

यह पोस्ट करके:

  1. Yएक्स

  2. एक्स

Y

Yएक्स

Yएक्सYएक्स

स्रोत: एप्लाइड रैखिक सांख्यिकीय मॉडल, KNNL

Yएक्स

Yमैं=β0 +β1एक्समैं+ε

Yमैंएक्समैं

β0β1 पैरामीटर हैं

εएन(हे,σ2)

मैं

(Y|एक्स)β0β1σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

1 और 2 कैसे अलग हैं?

सवाल पर आ रहे हैं

आपके द्वारा बताई गई पहली और दूसरी धारणा शून्य अर्थ और निरंतर विचरण के साथ सामान्यता की एक ही धारणा के दो भाग हैं। मुझे लगता है कि प्रश्न को इस रूप में देखा जाना चाहिए कि दो मान्यताओं के बीच अंतर के बजाय एक सामान्य त्रुटि प्रतिगमन मॉडल के लिए दो मान्यताओं के निहितार्थ क्या हैं। मैं कहता हूं कि क्योंकि यह संतरे की तुलना सेब की तरह लगता है क्योंकि आप बिंदुओं के बिखराव के वितरण और इसकी परिवर्तनशीलता पर मान्यताओं के बीच अंतर खोजने की कोशिश कर रहे हैं। भिन्नता एक वितरण की एक संपत्ति है। इसलिए मैं दो मान्यताओं के निहितार्थ के अधिक प्रासंगिक प्रश्न का उत्तर देने का प्रयास करूंगा।

सामान्यता की धारणा के तहत अधिकतम संभावना अनुमानक (MLE) कम से कम वर्ग के अनुमानक के समान हैं और MLE को UMVUE होने का गुण प्राप्त होता है होता है जिसका अर्थ है कि उनके पास सभी बीच न्यूनतम भिन्नता है।

β0β1टी


1
यह प्रतिगमन का एक उत्कृष्ट खाता है। लेकिन यह इस धागे में विशेष प्रश्न का उत्तर कैसे देता है?
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.