0 या 1 के द्विपद अनुमान के आसपास आत्मविश्वास अंतराल


36

एक द्विपद प्रयोग के विश्वास अंतराल की गणना करने के लिए सबसे अच्छी तकनीक क्या है, यदि आपका अनुमान है कि (या इसी तरह ) और नमूना आकार अपेक्षाकृत छोटा है, उदाहरण के लिए ?p=0p=1n=25


शून्य के कितने पास ? क्या यह अक्सर शून्य है, या 0.001, या 0.01, या ... के आदेश पर? और आपके पास कितना डेटा है? p^
जम्मन

हमारे पास आमतौर पर 800 से अधिक परीक्षण हैं। हम आमतौर पर 0 से 0.1 के लिएp^
_

आपके द्वारा लिंक किए गए क्लॉपर-पीयरसन अंतराल का उपयोग करें। सामान्य सिद्धांत: क्लॉपर-पीयरसन अंतराल को पहले आज़माएं। यदि कंप्यूटर को उत्तर नहीं मिल सकता है, तो अनुमान लगाने की विधि का प्रयास करें, जैसे कि सामान्य सन्निकटन। वर्तमान कंप्यूटर की गति के अनुसार, मुझे नहीं लगता कि हमें अधिकांश स्थितियों पर अनुमान लगाने की आवश्यकता है।
user158565

केवल (1- विश्वास स्तर) के साथ विश्वास अंतराल की ऊपरी सीमा प्राप्त करने के लिए , हम बस B (1− ; x + 1, n) x) का उपयोग करेंगे जहां x सफलताओं की संख्या (या विफलताओं) है; n नमूना आकार है। अजगर में, हम सिर्फ उपयोग करते हैं । यदि यह सत्य है, तो क्या हम यह निष्कर्ष निकाल सकते हैं कि हम 1 that आश्वस्त हैं कि हम जिस मूल्य से गणना करते हैं, ααscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x) αscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
उससे

1
800 परीक्षणों के साथ, सामान्य सामान्य सन्निकटन लगभग तक काफी अच्छी तरह से काम करेगा (मेरे सिमुलेशन ने 95% विश्वास अंतराल के 94.5% वास्तविक कवरेज का संकेत दिया।) 1000 परीक्षणों और , वास्तविक कवरेज 92.7% था। (सभी १००,००० प्रतिकृति पर आधारित है।) तो यह केवल बहुत कम लिए एक मुद्दा है , आपके परीक्षण की गिनती को देखते हुए। p=0.015p=0.01p
जुम्मन

जवाबों:


53

सामान्य सन्निकटन का उपयोग न करें

इस समस्या के बारे में बहुत कुछ लिखा गया है। एक सामान्य सलाह यह है कि सामान्य सन्निकटन (यानी, एसिम्प्टोटिक / वल्ड विश्वास अंतराल) का कभी भी उपयोग करें, क्योंकि इसमें उच्च कवरेज गुण होते हैं। इसे दर्शाने के लिए R कोड:

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

द्विपद अनुपात के लिए असममित आत्मविश्वास अंतराल के लिए कवरेज संभावनाएं।

छोटी सफलता की संभावनाओं के लिए, आप 95% विश्वास अंतराल के लिए पूछ सकते हैं, लेकिन वास्तव में, 10% विश्वास अंतराल प्राप्त करें!

अनुशंसाएँ

तो हमें क्या उपयोग करना चाहिए ? मेरा मानना ​​है कि वर्तमान अनुशंसाएँ सांख्यिकी विज्ञान 2001 में ब्राउन, कै और दासगुप्ता द्वारा द्विपद अनुपात के लिए पेपर इंटरवल आकलन में सूचीबद्ध हैं । 16, सं। २, पृष्ठ १०१-१३३। लेखकों ने विश्वास अंतराल की गणना के लिए कई तरीकों की जांच की, और निम्नलिखित निष्कर्ष पर पहुंचे।

[डब्ल्यू] ई विल्सन अंतराल या समान-पूंछ वाले जेफरी को छोटे एन के लिए पूर्व अंतराल और एगेस्टी और कूप में बड़े एन के लिए सुझाए गए अंतराल की सलाह देते हैं ।

विल्सन अंतराल को कभी-कभी स्कोर अंतराल भी कहा जाता है , क्योंकि यह एक स्कोर परीक्षण के आधार पर होता है।

अंतराल की गणना

इन आत्मविश्वास अंतरालों की गणना करने के लिए, आप इस ऑनलाइन कैलकुलेटर या binom.confint()फ़ंक्शन का उपयोग binomआर में पैकेज में कर सकते हैं। उदाहरण के लिए, 25 परीक्षणों में 0 सफलताओं के लिए, आर कोड होगा:

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

यहाँ bayesजेफ्रीज़ अंतराल है। ( समान-पूंछ वाले अंतराल type="central"को प्राप्त करने के लिए तर्क की आवश्यकता है ।)

ध्यान दें कि आपको यह तय करना चाहिए कि अंतराल की गणना करने से पहले आप उन तीन तरीकों में से किसका उपयोग करना चाहते हैं। तीनों को देखते हुए और सबसे छोटा चयन स्वाभाविक रूप से आपको बहुत कम कवरेज संभावना देगा।

एक त्वरित, अनुमानित उत्तर

अंतिम नोट के रूप में, यदि आप अपने n परीक्षणों में बिल्कुल शून्य सफलताओं का निरीक्षण करते हैं और बस एक बहुत जल्दी अनुमानित आत्मविश्वास अंतराल चाहते हैं, तो आप तीन के नियम का उपयोग कर सकते हैं । बस संख्या 3 को n से विभाजित करें । उपरोक्त उदाहरण में n 25 है, इसलिए ऊपरी सीमा 3/25 = 0.12 है (निचली सीमा निश्चित रूप से 0 है)।


आपके उत्तर के लिए बहुत कुछ। इस वास्तविक जीवन उदाहरण की कल्पना करें: एक वास्तुकार को एक गगनचुंबी इमारत में परीक्षण करना पड़ता है अगर छत में सभी इन्सुलेशन पैनल सही ढंग से स्थापित होते हैं। वह फर्श के एक यादृच्छिक चयन पर 25 छत के पैनल खोलता है और इन सभी छत पैनलों के ऊपर पाता है। इसलिए हम विल्सन स्कोर अंतराल के आधार पर CI [0.867 से 1] के बीच 95% निश्चितता के साथ एक इन्सुलेशन पैनल होने की वास्तविक संभावना को समाप्त कर सकते हैं?
कैस्पर

2
मैं यह नहीं कहूंगा कि आप इसे '95% निश्चितता 'के साथ समाप्त कर सकते हैं (Google' आत्मविश्वास अंतराल की सही व्याख्या के लिए ')। इसके अलावा, यह समान सफलता संभावनाओं के साथ स्वतंत्र परीक्षणों की धारणा पर आधारित है, जो यहां यथार्थवादी नहीं हो सकता है। शायद स्थापित किए गए अंतिम पैनलों में गलत तरीके से स्थापित होने का अधिक जोखिम था (उन्हें स्थापित करने वाला व्यक्ति थक गया था / ऊब गया था)। या शायद पहले वाले थे, क्योंकि व्यक्ति तब कम अनुभवी था। वैसे भी, यदि आर्किटेक्ट को यह बताने के लिए परीक्षण किया गया था कि क्या सभी पैनल सही ढंग से स्थापित हैं, तो उसे अपना काम करना चाहिए, न कि केवल एक नमूने का परीक्षण करना चाहिए!
कार्ल ओवे हफथममर

5
bayesयूनिफ़ॉर्म के पहले (जेफ़री के बजाय) का उपयोग करता है जब दोनों आकार पैरामीटर 1 होते हैं। मैंने जेफरी की बनाम वर्दी के फायदे (पूर्व) के बारे में जिज्ञासा से बाहर बिनोम पैकेज के अनुरक्षक के साथ ईमेल किया और उसने मुझे बताया कि एक नया संस्करण का उपयोग करेगा डिफ़ॉल्ट के रूप में पहले वर्दी। इसलिए आश्चर्य नहीं कि भविष्य में परिणाम थोड़ा भिन्न हो।
केलीइट्स

3
यह एक उत्कृष्ट उत्तर है। यह उन सभी प्रमुख सूचनाओं को बताता है जिन्हें आप विषय पर कागजात में पढ़ सकते हैं, लेकिन बहुत ही स्पष्ट और स्पष्ट रूप से। अगर मैं दो बार उठ सकता है।
सिग्मा

6
binconfमें विधि Hmiscभी इन अंतराल गणना करता है। यह विल्सन विधि के लिए चूक।
सिग्मा

0

Agretsi (2007, pp.9-10) से पता चलता है कि जब अनुपात 0 या 1 के पास आता है, तो आत्मविश्वास अंतराल खराब प्रदर्शन करता है। इसके बजाय, एक "द्वैत बुद्धि महत्व परीक्षण ... का उपयोग करें [कि] null परिकल्पना पैरामीटर के लिए के सभी मान शामिल हैं जो एक न्यायपूर्ण प्रशंसनीय है," जहां अज्ञात पैरामीटर है। समीकरण में लिए हल करके ऐसा करें । दोनों पक्षों को ऐसा करें, उपज द्विघात सूत्र का उपयोग करके हल करें, जो उपज देगा उपयुक्त महत्वपूर्ण z- मूल्य।p±zα/2p(1p)/nπ0π0π0

|pπ0|p(1p)/n=0
(1+z02/n)π02+(2pz02/n)π0+p2=0


1
नोटों के लिए धन्यवाद। बस स्पष्ट करना चाहते हैं: में अनुमानित विफलता (या सफलता) दर है, जबकि नमूना से पी मनाया विफलता (या सफलता दर) है। और n नमूना आकार है, इसलिए हम अनुमानित z- मूल्य को हल करने की कोशिश कर रहे हैं? (यहां अंतर्निहित धारणाएं क्या हैं?) (क्या आप मुझे पेपर अग्रीस्टी (2007, पीपी। 9-10) से जोड़ेंगे)। π0
AI25.0

हाँ, जनसंख्या पैरामीटर है, आपके नमूने के आधार पर पैरामीटर अनुमान है, और नमूना आकार है। यह प्रक्रिया आपको महत्वपूर्ण जेड-मूल्य देगी जो आप चाहते हैं। अंतर्निहित मान्यताओं को अग्रेससी और कूप (1998) में लिंक किया गया है, अंत में लिंक। दुर्भाग्य से, एग्रेटी (2007) एक पाठ्यपुस्तक है, इसलिए मैं इससे लिंक नहीं कर सकता। scholar.google.com/… पी एनπ0pn
Jay Schyler Raadt 19

वह है एग्रेस्टी।
कॉक्स पर निक कॉक्स

@ नाइकॉक्स यह एक अलग काम है
जे शाइलर राडट

1
एलन अग्रेस्टी ने विभिन्न ग्रंथों का प्रकाशन किया है। मुझे लगता है कि आप श्रेणीबद्ध डेटा विश्लेषण के लिए एक परिचय (2 संस्करण 2007, 3 डी संस्करण अक्टूबर 2018 के प्रकाशन के लिए निर्धारित किया गया है और जॉन विली से 2019 की तारीख ले सकते हैं) की ओर इशारा कर रहे हैं ।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.