क्या "वास्तविक कवरेज संभावना" की गणना "विश्वसनीय अंतराल" की गणना के समान है?


10

मैं एक प्रवेश स्तर के आंकड़े पाठ्यपुस्तक पढ़ रहा था। द्विपद वितरण के साथ डेटा में सफलता के अनुपात के अधिकतम संभावना अनुमान पर अध्याय में, इसने एक आत्मविश्वास अंतराल की गणना करने और फिर गैर-उल्लेखित करने के लिए एक सूत्र दिया

इसकी वास्तविक कवरेज संभावना पर विचार करें, अर्थात्, संभावना है कि विधि एक अंतराल पैदा करती है जो सच्चे पैरामीटर मान को कैप्चर करता है। यह मामूली मूल्य से काफी कम हो सकता है।

और एक वैकल्पिक "आत्मविश्वास अंतराल" के निर्माण के सुझाव के साथ आगे बढ़ता है, जिसमें संभवतः वास्तविक कवरेज संभावना है।

मुझे पहली बार नाममात्र और वास्तविक कवरेज संभावना के विचार के साथ सामना किया गया था। यहां पुराने प्रश्नों के माध्यम से अपना रास्ता बनाते हुए, मुझे लगता है कि मुझे इसके लिए एक समझ मिली: दो अलग-अलग अवधारणाएं हैं जिन्हें हम संभाव्यता कहते हैं, पहला यह कि यह कितना संभावित है कि एक नहीं-अभी तक हुई घटना एक दिए गए परिणाम का उत्पादन करेगी, और दूसरा यह कैसे संभव है कि पहले से हुई घटना के परिणाम के लिए एक अवलोकन एजेंट का अनुमान सही है। यह भी प्रतीत हुआ कि आत्मविश्वास अंतराल केवल पहले प्रकार की संभाव्यता को मापता है, और यह कि "विश्वसनीय अंतराल" नामक चीज दूसरे प्रकार की संभावना को मापती है। मैंने संक्षेप में यह मान लिया है कि आत्मविश्वास अंतराल वे हैं जो "नाममात्र कवरेज संभावना" की गणना करते हैं और विश्वसनीय अंतराल वे हैं जो "वास्तविक कवरेज संभावना" को कवर करते हैं।

लेकिन शायद मैंने पुस्तक की गलत व्याख्या की है (यह पूरी तरह से स्पष्ट नहीं है कि यह अलग-अलग गणना के तरीके जो एक आत्मविश्वास अंतराल और एक विश्वसनीय अंतराल के लिए हैं, या दो अलग-अलग प्रकार के आत्मविश्वास अंतराल के लिए हैं), या अन्य स्रोत जो मुझे आते थे। मेरी वर्तमान समझ। खासकर एक टिप्पणी जो मुझे एक और सवाल पर मिली,

बायिसियन के लिए विश्वसनीय, लगातारवादी के लिए आत्मविश्वास अंतराल

मुझे मेरे निष्कर्ष पर संदेह हुआ, क्योंकि पुस्तक ने उस अध्याय में बायेसियन पद्धति का वर्णन नहीं किया था।

तो कृपया स्पष्ट करें कि क्या मेरी समझ सही है, या यदि मैंने रास्ते में कोई तार्किक त्रुटि की है।


नाममात्र कवरेज संभावना "लक्ष्य" कवरेज संभावना है: हम जिसे प्राप्त करने की कोशिश करते हैं, जब हम एक आत्मविश्वास अंतराल प्रदान करते हैं। वास्तविक कवरेज "सही" कवरेज है। कुछ लोग कहते हैं कि जब वास्तविक कवरेज नाममात्र कवरेज के बराबर होता है तो आत्मविश्वास अंतराल ठीक होता है। स्कॉच और अनविडम ने उल्लेख किया है कि असतत डेटा के लिए आत्मविश्वास अंतराल कभी भी सटीक नहीं होता है। एक और उदाहरण है जब हम एक स्पर्शोन्मुख विश्वास अंतराल का उपयोग करते हैं: यह केवल तभी होता है जब । मैं आपके विचार को पूरी तरह से समझता हूं क्योंकि "वास्तविक" भी "वर्तमान" का एक पर्याय है। n
स्टीफन लॉरेंट

जवाबों:


5

सामान्य तौर पर, जब आप असतत वितरण के साथ काम कर रहे हैं तो वास्तविक कवरेज संभावना नाममात्र संभावना के बराबर नहीं होगी।

विश्वास अंतराल को डेटा के एक फ़ंक्शन के रूप में परिभाषित किया गया है। यदि आप द्विपद वितरण के साथ काम कर रहे हैं, तो केवल बहुत से संभावित परिणाम ( सटीक होने के लिए) हैं, इसलिए केवल बहुत ही संभव आत्मविश्वास अंतराल हैं। चूंकि पैरामीटर निरंतर है, यह देखना बहुत आसान है कि कवरेज संभावना (जो कि का एक कार्य है ) लगभग 95% (या जो भी) हो उससे बेहतर कोई नहीं कर सकता।n+1पीपी

यह आम तौर पर सच है कि सीएलटी पर आधारित विधियों में नाममात्र मूल्य के नीचे कवरेज संभावनाएं होंगी, लेकिन अन्य विधियां वास्तव में अधिक रूढ़िवादी हो सकती हैं।


1
यहां परिभाषा का एक उपयोगी औपचारिक विवरण दिया गया है: एक नमूना स्थान दिया गया है Ω,एफ,पी और एक अज्ञात पैरामीटर θ, ए 1-α विश्वास प्रक्रिया में कार्यों की एक जोड़ी होती हैएलयू:Ωआर ऐसा है कि
P[{ωΩ|[L(ω),U(ω)]θ}]1α.
इस अभिव्यक्ति का बायां हाथ है कवरेज संभावना(ध्यान दें कि यह θ पर निर्भर करता है) और आरएचएस नाममात्र विश्वास स्तर है । यदि अनंत (अधिक)Ω) की LHS RHS के बराबर है तो प्रक्रिया सटीक है
अनिश्चित काल

8

यह बायेसियन विश्वसनीय अंतराल बनाम लगातार विश्वास अंतराल के साथ कुछ नहीं करना है। 95% ( मान ) विश्वास अंतराल को कम से कम 95% कवरेज देने के रूप में परिभाषित किया गया है जो भी पैरामीटर का सही मूल्य हैπ। इसलिए जब नाममात्र कवरेज 95% है, तो वास्तविक कवरेज 97% हो सकता हैπ=π1, 96.5% जब π=π2, लेकिन बिना किसी मूल्य के πक्या यह 95% से कम है। मुद्दा (यानी नाममात्र और वास्तविक कवरेज के बीच एक विसंगति) द्विपद की तरह असतत वितरण के साथ उठता है।

चित्रण के रूप में, अवलोकन पर विचार करें एक्स से सफलताएँ मिलती हैं n अज्ञात सफलता संभावना के साथ द्विपद परीक्षण π:

एक्सπयूपीआर(एक्स=एक्स|π=0.7)मैं(πयू0.7)00.39303780.000729010.58180340.010206020.72866160.059535130.84683890.185220140.93715010.324135150.99148760.302526161.00000000.1176491
पहला कॉलम संभावित देखे गए मानों को दिखाता है एक्स। दूसरा सटीक दिखाता है 95%ऊपरी विश्वास बाध्यπयू=π:[पीआर(एक्स>एक्स|π)=0.95]कि आप प्रत्येक मामले में गणना करेंगे। अब मान लीजिएπ=0.7: तीसरा कॉलम प्रत्येक देखे गए मान की संभावना दर्शाता है एक्सइस दमन के तहत; चौथा शो जिसके लिए परिकलित विश्वास अंतराल सही पैरामीटर मान को कवर करता है, उन्हें एक के साथ चिह्नित करता है1। यदि आप उन मामलों के लिए संभावनाओं को जोड़ते हैं जिनमें विश्वास अंतराल वास्तविक मूल्य को कवर करता है जो आपको वास्तविक कवरेज मिलता है,0.989065। के विभिन्न सच्चे मूल्यों के लिएπवास्तविक कवरेज अलग होगा:

कवरेज

नाममात्र कवरेज केवल तभी प्राप्त होता है जब सच पैरामीटर मान प्राप्य ऊपरी सीमा के साथ मेल खाता है।

[मैंने आपके प्रश्न को फिर से पढ़ा और देखा कि लेखक का कहना है कि नाममात्र कवरेज संभावना से कम हो सकता है। इसलिए मुझे विश्वास है कि वे विश्वास अंतराल की गणना के लिए एक अनुमानित विधि के बारे में बात कर रहे हैं, हालांकि मैंने ऊपर जो कहा था वह अभी भी जाता है। ग्राफ के बारे में एक औसत आत्मविश्वास स्तर की रिपोर्टिंग का सुझाव दे सकता है98% लेकिन एक अज्ञात पैरामीटर के मूल्यों पर औसत?]

The इस अर्थ में सटीक कि वास्तविक कवरेज किसी भी मूल्य के लिए नाममात्र कवरेज से कम नहीं है π, और इसके कुछ मूल्यों के बराबर है π- @ अनविज्म का भाव, न कि @ स्टीफन का।

‡ ऊपरी और निचले सीमा वाले अंतराल आमतौर पर अधिक उपयोग किए जाते हैं; लेकिन समझाने के लिए थोड़ा और जटिल है, और केवल एक ऊपरी सीमा के साथ विचार करने के लिए केवल एक सटीक अंतराल है। (देखें ब्लेकर (2000), "आत्मविश्वास घटता है और असतत वितरण के लिए सटीक आत्मविश्वास अंतराल में सुधार", कनाडाई जर्नल ऑफ स्टेटिस्टिक्स , 28 , 4 और संदर्भ।)


जवाब देने के लिए शुक्रिया। अब जब मुझे पता है कि वास्तविक कवरेज की संभावना क्या है, तो क्या आपको अंदाजा है कि इस सवाल में उपयोगकर्ता को उन सवालों के लिए क्यों भेजा गया था जो विश्वसनीय और आत्मविश्वास के अंतराल के बीच अंतर बताते हैं? यहीं से मुझे यह विचार आया कि वास्तविक / नाममात्र कवरेज संभावना है। द्वंद्व संबंधित है। stats.stackexchange.com/questions/63922/...
rumtscho

शायद इसलिए कि ओपी केवल एक लिंक देता है, जहां उसने "नाममात्र" और "वास्तविक" शब्दों को देखा है (बल्कि संक्षेप में प्रस्तुत करने या आपके द्वारा किए गए प्रश्न के अनुसार उसे उद्धृत करने के बजाय), और फिर अपने प्रश्न के बाकी हिस्सों को उनकी गलत व्याख्या के लिए समर्पित करता है उस संदर्भ में उपयोग करें।
Scortchi - को पुनः स्थापित मोनिका

2

मुझे लगता है कि अंतर वास्तव में आत्मविश्वास अंतराल की गणना करते समय किए गए अनुमानों के उपयोग के बारे में है। उदाहरण के लिए यदि हम सीआई के उचित मानक का उपयोग करते हैं

आकलन±1.96×अनुमानित मानक त्रुटि

हम इसे "95% विश्वास अंतराल" कह सकते हैं। हालाँकि, यह आमतौर पर मामला है कि कई सन्निकटन यहाँ किए गए हैं। यदि हम सन्निकटन नहीं करते हैं, तो हम वास्तविक कवरेज की गणना कर सकते हैं। मानक त्रुटि का आकलन करने के लिए एक विशिष्ट स्थिति है। फिर अंतराल 95% संभावना के साथ सही मूल्य पर कब्जा करने के लिए बहुत संकीर्ण हैं। वे केवल 85% प्रायिकता के साथ सही मान कैप्चर कर सकते हैं। "वास्तविक कवरेज" संभावना की गणना किसी तरह के एक मोंटे कार्लो सिमुलेशन का उपयोग करके की जा सकती है1000 नमूना डेटा एक चुने हुए सच्चे मूल्य का उपयोग करके सेट करता है, फिर प्रत्येक के लिए 95% CI की गणना करें, और यह खोजें 850 वास्तव में सही मूल्य निहित)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.