रैखिक प्रतिगमन में अनुमानित मूल्यों के लिए आत्मविश्वास अंतराल का आकार


69

मैंने देखा है कि एक रेखीय प्रतिगमन में अनुमानित मूल्यों के लिए विश्वास अंतराल भविष्यवक्ता के न्यूनतम और अधिकतम मूल्यों के आसपास भविष्यवक्ता और वसा के माध्यम से संकीर्ण होने की ओर इशारा करता है। यह इन 4 रैखिक रजिस्टरों के भूखंडों में देखा जा सकता है:

यहाँ छवि विवरण दर्ज करें

मैंने शुरू में यह सोचा था क्योंकि भविष्यवक्ताओं के अधिकांश मूल्य पूर्वसूचक के अर्थ के आसपास केंद्रित थे। हालाँकि, मैंने तब गौर किया कि विश्वास अंतराल का संकीर्ण मध्य तब भी होता है, जब भविष्यवक्ता के चरम के आस-पास के कई मूल्य केंद्रित होते हैं, जैसा कि नीचे बाईं ओर रेखीय प्रतिगमन में है, जो कि भविष्यवक्ता के बहुत सारे मूल्य न्यूनतम के आसपास केंद्रित हैं। भविष्यवक्ता।

क्या कोई यह समझाने में सक्षम है कि एक रेखीय प्रतिगमन में अनुमानित मूल्यों के लिए विश्वास अंतराल मध्य में संकीर्ण और चरम सीमा पर वसा क्यों है?

जवाबों:


86

मैं इसे सहज शब्दों में चर्चा करूँगा।

प्रतिगमन में विश्वास अंतराल और भविष्यवाणी अंतराल दोनों इस तथ्य को ध्यान में रखते हैं कि अवरोधन और ढलान अनिश्चित हैं - आप डेटा से मूल्यों का अनुमान लगाते हैं, लेकिन जनसंख्या मान भिन्न हो सकते हैं (यदि आपने एक नया नमूना लिया है, तो आप अलग-अलग अनुमान लगाएंगे। मान)।

एक प्रतिगमन रेखा से होकर गुज़रेगी , और उस बिंदु के चारों ओर होने वाले परिवर्तनों के बारे में चर्चा को केंद्र में रखना सबसे अच्छा होगा - जो कि लाइन बारे में सोचना है (इस सूत्रीकरण में, )।(x¯,y¯)y=a+b(xx¯)a^=y¯

यदि वह रेखा उस बिंदु से गुज़रती है, लेकिन ढलान थोड़ा अधिक या कम था (अर्थात यदि मीन रेखा की ऊँचाई निश्चित थी लेकिन ढलान थोड़ा अलग था), तो वह क्या होगा हमशक्ल?(x¯,y¯)

आप देखेंगे कि नई रेखा वर्तमान रेखा से मध्य की ओर छोर के पास से आगे की ओर निकलेगी, एक तरह का तिरछी एक्स बना सकती है जो कि मध्य से पार हो जाती है (जैसा कि नीचे की बैंगनी रेखाओं में से प्रत्येक लाल रेखा के संबंध में है। ; बैंगनी लाइनों का अनुमान ढलान का प्रतिनिधित्व ढलान के दो मानक त्रुटियों)।±

यहाँ छवि विवरण दर्ज करें

यदि आप ढलान के साथ इस तरह की लाइनों का एक संग्रह अपने अनुमान से थोड़ा अलग करते हैं, तो आपको 'फैन आउट' के पास अनुमानित मूल्यों का वितरण दिखाई देगा (कल्पना करें कि ग्रे में छायांकित दो बैंगनी रेखाओं के बीच का क्षेत्र, उदाहरण के लिए, क्योंकि हमने फिर से नमूना लिया और अनुमानित एक के पास ऐसे कई ढलानों को खींचा, हम बिंदु ( ) के माध्यम से एक लाइन बूटस्ट्रैप करके इसका एक अर्थ प्राप्त कर सकते हैं । यहां पैरामीट्रिक बूटस्ट्रैप के साथ 2000 के अवशेषों का उपयोग करके एक उदाहरण दिया गया है:x¯,y¯

यहाँ छवि विवरण दर्ज करें

आप निरंतर में अनिश्चितता के कारण ले तो बेहतर होगा आप (बनाने लाइन गुजरती पास पर काफी नहीं के माध्यम से ), कि किसी भी पर मतलब के लिए ऊपर और नीचे लाइन ले जाता है, तो अंतराल होगा फिट लाइन के ऊपर और नीचे बैठें।(x¯,y¯)x

यहाँ छवि विवरण दर्ज करें

(यहाँ बैंगनी लाइनें हैं निरंतर अवधि या तो अनुमान लाइन के किनारे के दो मानक त्रुटियों)।±

जब आप दोनों एक साथ करते हैं (लाइन एक छोटे से ऊपर या नीचे हो सकती है, और ढलान थोड़ा सख्त या उथला हो सकता है), तो आपको माध्य में अनिश्चितता के कारण, कुछ मात्रा में फैलता है, , स्थिरांक, और आप ढलान की अनिश्चितता के कारण कुछ अतिरिक्त फैनिंग प्राप्त करते हैं, उनके बीच आपके भूखंडों की विशेषता हाइपरबोलिक आकार का उत्पादन करते हैं।x¯

वह अंतर्ज्ञान है।


अब, यदि आप चाहें, तो हम थोड़ा बीजगणित पर विचार कर सकते हैं (लेकिन यह आवश्यक नहीं है):

यह वास्तव में उन दो प्रभावों के वर्गों के योग का वर्गमूल है - आप इसे विश्वास अंतराल के सूत्र में देख सकते हैं। चलो टुकड़ों का निर्माण करते हैं:

साथ मानक त्रुटि में जाना जाता है (याद यहाँ की उम्मीद मूल्य है पर की संकरी , नहीं सामान्य अवरोधन; यह सिर्फ एक मतलब का एक मानक त्रुटि है)। यह माध्य ( ) पर रेखा की स्थिति का मानक त्रुटि है ।abσ/nayxx¯

के साथ मानक त्रुटि जाना जाता है । कुछ मान पर ढलान में अनिश्चितता का प्रभाव कई गुना है कि आप माध्य से कितनी दूर हैं ( ) (क्योंकि स्तर में परिवर्तन ढलान के समय में परिवर्तन है जो आप दूरी से चलते हैं), ।baσ/i=1n(xix¯)2xxx¯(xx¯)σ/i=1n(xix¯)2

अब समग्र प्रभाव सिर्फ उन दो चीजों के वर्गों के योग का वर्गमूल है (क्यों? क्योंकि असंबद्ध चीजों के भिन्न रूप जोड़ते हैं, और यदि आप रूप में अपनी लाइन लिखते हैं और के अनुमान असंबंधित हैं। इसलिए समग्र मानक त्रुटि समग्र विचरण का वर्गमूल है, और विचरण घटकों के भिन्न रूप का योग है - अर्थात, हमारे पास हैy=a+b(xx¯)ab

(σ/n)2+[(xx¯)σ/i=1n(xix¯)2]2

एक छोटी सी साधारण हेरफेर औसत मान के अनुमान की मानक त्रुटि के लिए सामान्य अवधि देता है पर :x

σ1n+(xx¯)2i=1n(xix¯)2

यदि आप इसे एक समारोह के रूप में आकर्षित करते हैं , तो आप देखेंगे कि यह कम से कम साथ एक वक्र (एक मुस्कान की तरह दिखता है) बनाता है , जो आपके बाहर निकलते ही बड़ा हो जाता है। यह वही है जो फिट लाइन से जोड़ा / घटाया जाता है (अच्छी तरह से, यह एक वांछित विश्वास स्तर प्राप्त करने के लिए, इसका एक गुण है)।xx¯

[भविष्यवाणी अंतराल के साथ, प्रक्रिया परिवर्तनशीलता के कारण स्थिति में भिन्नता भी है; यह एक और शब्द जोड़ता है जो सीमाओं को ऊपर और नीचे स्थानांतरित करता है, जिससे बहुत व्यापक प्रसार होता है, और क्योंकि यह शब्द आमतौर पर वर्गमूल के तहत राशि पर हावी होता है, वक्रता बहुत कम स्पष्ट होती है।]


धन्यवाद Glen_b यह बहुत सहज है। इसने मेरे दिमाग को पार नहीं किया है कि विश्वास अंतराल के लिए क्या है।
लूसियानो

1

स्वीकृत उत्तर वास्तव में आवश्यक अंतर्ज्ञान लाता है। यह केवल रैखिक और कोणीय अनिश्चितताओं दोनों के संयोजन के दृश्य को याद करता है, जो प्रश्न में भूखंडों को बहुत अच्छी तरह से संदर्भित करता है। तो यहाँ यह जाता है। आइए कॉल करते हैं a'और क्रमशः, और , किसी भी लोकप्रिय सांख्यिकी पैकेज द्वारा लौटाए गए मात्रा b'की अनिश्चितताएं । फिर हमारे पास सबसे अच्छा फिट के अलावा , चार संभावित रेखाएं खींचना है (1 कोवरिएट एक्स के इस मामले में):aba*x + b

  • (a+a')*x + b+b'
  • (a-a')*x + b-b'
  • (a+a')*x + b-b'
  • (a-a')*x + b+b'

नीचे दिए गए ग्राफ़ में ये चार टक्कर वाली लाइनें हैं। बीच में काली मोटी रेखा अनिश्चितताओं के बिना सबसे अच्छी फिट का प्रतिनिधित्व करती है। तो "हाइपरबोलिक" शेडिंग को आकर्षित करने के लिए, किसी को इन चार लाइनों के अधिकतम और न्यूनतम मूल्यों को संयुक्त रूप से लेना चाहिए, जो वास्तव में चार लाइन सेगमेंट में हैं, वहां कोई वक्र नहीं है (मुझे आश्चर्य है कि ये फिक्शन प्लॉट घुमावदार को कैसे आकर्षित करते हैं, यह प्रतीत नहीं होता है मेरे लिए कोई सटीक)।

मुझे उम्मीद है कि यह @Glen_b से पहले से ही अच्छे उत्तर के लिए कुछ जोड़ता है।

यहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.