0 या 1 के द्विपद अनुमान के आसपास आत्मविश्वास अंतराल

एक द्विपद प्रयोग के विश्वास अंतराल की गणना करने के लिए सबसे अच्छी तकनीक क्या है, यदि आपका अनुमान है कि (या इसी तरह ) और नमूना आकार अपेक्षाकृत छोटा है, उदाहरण के लिए ? $p=0$ $p=1$ $n=25$

confidence-interval binomial

— कैस्पर
स्रोत

शून्य के कितने पास ? क्या यह अक्सर शून्य है, या 0.001, या 0.01, या ... के आदेश पर? और आपके पास कितना डेटा है?

\hat{p}

$\hat{p}$

— जम्मन

हमारे पास आमतौर पर 800 से अधिक परीक्षण हैं। हम आमतौर पर 0 से 0.1 के लिए

\hat{p}

$\hat{p}$

— _

आपके द्वारा लिंक किए गए क्लॉपर-पीयरसन अंतराल का उपयोग करें। सामान्य सिद्धांत: क्लॉपर-पीयरसन अंतराल को पहले आज़माएं। यदि कंप्यूटर को उत्तर नहीं मिल सकता है, तो अनुमान लगाने की विधि का प्रयास करें, जैसे कि सामान्य सन्निकटन। वर्तमान कंप्यूटर की गति के अनुसार, मुझे नहीं लगता कि हमें अधिकांश स्थितियों पर अनुमान लगाने की आवश्यकता है।

— user158565

केवल (1- विश्वास स्तर) के साथ विश्वास अंतराल की ऊपरी सीमा प्राप्त करने के लिए , हम बस B (1− ; x + 1, n) x) का उपयोग करेंगे जहां x सफलताओं की संख्या (या विफलताओं) है; n नमूना आकार है। अजगर में, हम सिर्फ उपयोग करते हैं । यदि यह सत्य है, तो क्या हम यह निष्कर्ष निकाल सकते हैं कि हम 1 that आश्वस्त हैं कि हम जिस मूल्य से गणना करते हैं,

α

$\alpha$

α

$\alpha$ scipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)

α

$\alpha$ scipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)

— उससे

800 परीक्षणों के साथ, सामान्य सामान्य सन्निकटन लगभग तक काफी अच्छी तरह से काम करेगा (मेरे सिमुलेशन ने 95% विश्वास अंतराल के 94.5% वास्तविक कवरेज का संकेत दिया।) 1000 परीक्षणों और , वास्तविक कवरेज 92.7% था। (सभी १००,००० प्रतिकृति पर आधारित है।) तो यह केवल बहुत कम लिए एक मुद्दा है , आपके परीक्षण की गिनती को देखते हुए।

p = 0.015

$p=0.015$

p = 0.01

$p=0.01$

p

$p$

— जुम्मन

जवाबों:

सामान्य सन्निकटन का उपयोग न करें

इस समस्या के बारे में बहुत कुछ लिखा गया है। एक सामान्य सलाह यह है कि सामान्य सन्निकटन (यानी, एसिम्प्टोटिक / वल्ड विश्वास अंतराल) का कभी भी उपयोग न करें, क्योंकि इसमें उच्च कवरेज गुण होते हैं। इसे दर्शाने के लिए R कोड:

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

द्विपद अनुपात के लिए असममित आत्मविश्वास अंतराल के लिए कवरेज संभावनाएं।

छोटी सफलता की संभावनाओं के लिए, आप 95% विश्वास अंतराल के लिए पूछ सकते हैं, लेकिन वास्तव में, 10% विश्वास अंतराल प्राप्त करें!

अनुशंसाएँ

तो हमें क्या उपयोग करना चाहिए ? मेरा मानना है कि वर्तमान अनुशंसाएँ सांख्यिकी विज्ञान 2001 में ब्राउन, कै और दासगुप्ता द्वारा द्विपद अनुपात के लिए पेपर इंटरवल आकलन में सूचीबद्ध हैं । 16, सं। २, पृष्ठ १०१-१३३। लेखकों ने विश्वास अंतराल की गणना के लिए कई तरीकों की जांच की, और निम्नलिखित निष्कर्ष पर पहुंचे।

[डब्ल्यू] ई विल्सन अंतराल या समान-पूंछ वाले जेफरी को छोटे एन के लिए पूर्व अंतराल और एगेस्टी और कूप में बड़े एन के लिए सुझाए गए अंतराल की सलाह देते हैं ।

विल्सन अंतराल को कभी-कभी स्कोर अंतराल भी कहा जाता है , क्योंकि यह एक स्कोर परीक्षण के आधार पर होता है।

अंतराल की गणना

इन आत्मविश्वास अंतरालों की गणना करने के लिए, आप इस ऑनलाइन कैलकुलेटर या binom.confint()फ़ंक्शन का उपयोग binomआर में पैकेज में कर सकते हैं। उदाहरण के लिए, 25 परीक्षणों में 0 सफलताओं के लिए, आर कोड होगा:

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

यहाँ bayesजेफ्रीज़ अंतराल है। ( समान-पूंछ वाले अंतराल type="central"को प्राप्त करने के लिए तर्क की आवश्यकता है ।)

ध्यान दें कि आपको यह तय करना चाहिए कि अंतराल की गणना करने से पहले आप उन तीन तरीकों में से किसका उपयोग करना चाहते हैं। तीनों को देखते हुए और सबसे छोटा चयन स्वाभाविक रूप से आपको बहुत कम कवरेज संभावना देगा।

एक त्वरित, अनुमानित उत्तर

अंतिम नोट के रूप में, यदि आप अपने n परीक्षणों में बिल्कुल शून्य सफलताओं का निरीक्षण करते हैं और बस एक बहुत जल्दी अनुमानित आत्मविश्वास अंतराल चाहते हैं, तो आप तीन के नियम का उपयोग कर सकते हैं । बस संख्या 3 को n से विभाजित करें । उपरोक्त उदाहरण में n 25 है, इसलिए ऊपरी सीमा 3/25 = 0.12 है (निचली सीमा निश्चित रूप से 0 है)।

— कार्ल ओवे हफथमर
स्रोत

आपके उत्तर के लिए बहुत कुछ। इस वास्तविक जीवन उदाहरण की कल्पना करें: एक वास्तुकार को एक गगनचुंबी इमारत में परीक्षण करना पड़ता है अगर छत में सभी इन्सुलेशन पैनल सही ढंग से स्थापित होते हैं। वह फर्श के एक यादृच्छिक चयन पर 25 छत के पैनल खोलता है और इन सभी छत पैनलों के ऊपर पाता है। इसलिए हम विल्सन स्कोर अंतराल के आधार पर CI [0.867 से 1] के बीच 95% निश्चितता के साथ एक इन्सुलेशन पैनल होने की वास्तविक संभावना को समाप्त कर सकते हैं?

— कैस्पर

मैं यह नहीं कहूंगा कि आप इसे '95% निश्चितता 'के साथ समाप्त कर सकते हैं (Google' आत्मविश्वास अंतराल की सही व्याख्या के लिए ')। इसके अलावा, यह समान सफलता संभावनाओं के साथ स्वतंत्र परीक्षणों की धारणा पर आधारित है, जो यहां यथार्थवादी नहीं हो सकता है। शायद स्थापित किए गए अंतिम पैनलों में गलत तरीके से स्थापित होने का अधिक जोखिम था (उन्हें स्थापित करने वाला व्यक्ति थक गया था / ऊब गया था)। या शायद पहले वाले थे, क्योंकि व्यक्ति तब कम अनुभवी था। वैसे भी, यदि आर्किटेक्ट को यह बताने के लिए परीक्षण किया गया था कि क्या सभी पैनल सही ढंग से स्थापित हैं, तो उसे अपना काम करना चाहिए, न कि केवल एक नमूने का परीक्षण करना चाहिए!

— कार्ल ओवे हफथममर

bayesयूनिफ़ॉर्म के पहले (जेफ़री के बजाय) का उपयोग करता है जब दोनों आकार पैरामीटर 1 होते हैं। मैंने जेफरी की बनाम वर्दी के फायदे (पूर्व) के बारे में जिज्ञासा से बाहर बिनोम पैकेज के अनुरक्षक के साथ ईमेल किया और उसने मुझे बताया कि एक नया संस्करण का उपयोग करेगा डिफ़ॉल्ट के रूप में पहले वर्दी। इसलिए आश्चर्य नहीं कि भविष्य में परिणाम थोड़ा भिन्न हो।

— केलीइट्स

यह एक उत्कृष्ट उत्तर है। यह उन सभी प्रमुख सूचनाओं को बताता है जिन्हें आप विषय पर कागजात में पढ़ सकते हैं, लेकिन बहुत ही स्पष्ट और स्पष्ट रूप से। अगर मैं दो बार उठ सकता है।

— सिग्मा

binconfमें विधि Hmiscभी इन अंतराल गणना करता है। यह विल्सन विधि के लिए चूक।

— सिग्मा

Agretsi (2007, pp.9-10) से पता चलता है कि जब अनुपात 0 या 1 के पास आता है, तो आत्मविश्वास अंतराल खराब प्रदर्शन करता है। इसके बजाय, एक "द्वैत बुद्धि महत्व परीक्षण ... का उपयोग करें [कि] null परिकल्पना पैरामीटर के लिए के सभी मान शामिल हैं जो एक न्यायपूर्ण प्रशंसनीय है," जहां अज्ञात पैरामीटर है। समीकरण में लिए हल करके ऐसा करें । दोनों पक्षों को ऐसा करें, उपज द्विघात सूत्र का उपयोग करके हल करें, जो उपज देगा उपयुक्त महत्वपूर्ण z- मूल्य। $p\pm z_{\alpha/2}\sqrt{p(1-p)/n}$ $\pi_0$ $\pi_0$ $\pi_0$

\frac{| p - π_{0} |}{\sqrt{p (1 - p) / n}} = 0

$\frac{|p-\pi_0|}{\sqrt{p(1-p)/n}}=0$

(1 + z_{0}^{2} / n) π_{0}^{2} + (- 2 p - z_{0}^{2} / n) π_{0} + p^{2} = 0

$(1+z_0^2/n)\pi_0^2+(-2p-z_0^2/n)\pi_0+p^2=0$

— जे शाइलर राडट
स्रोत

नोटों के लिए धन्यवाद। बस स्पष्ट करना चाहते हैं: में अनुमानित विफलता (या सफलता) दर है, जबकि नमूना से पी मनाया विफलता (या सफलता दर) है। और n नमूना आकार है, इसलिए हम अनुमानित z- मूल्य को हल करने की कोशिश कर रहे हैं? (यहां अंतर्निहित धारणाएं क्या हैं?) (क्या आप मुझे पेपर अग्रीस्टी (2007, पीपी। 9-10) से जोड़ेंगे)।

π_{0}

$\pi_0$

— AI25.0

हाँ, जनसंख्या पैरामीटर है, आपके नमूने के आधार पर पैरामीटर अनुमान है, और नमूना आकार है। यह प्रक्रिया आपको महत्वपूर्ण जेड-मूल्य देगी जो आप चाहते हैं। अंतर्निहित मान्यताओं को अग्रेससी और कूप (1998) में लिंक किया गया है, अंत में लिंक। दुर्भाग्य से, एग्रेटी (2007) एक पाठ्यपुस्तक है, इसलिए मैं इससे लिंक नहीं कर सकता। scholar.google.com/…

π_{0}

$\pi_0$

p

$p$

n

$n$

— Jay Schyler Raadt 19

वह है एग्रेस्टी।

— कॉक्स पर निक कॉक्स

@ नाइकॉक्स यह एक अलग काम है

— जे शाइलर राडट

एलन अग्रेस्टी ने विभिन्न ग्रंथों का प्रकाशन किया है। मुझे लगता है कि आप श्रेणीबद्ध डेटा विश्लेषण के लिए एक परिचय (2 संस्करण 2007, 3 डी संस्करण अक्टूबर 2018 के प्रकाशन के लिए निर्धारित किया गया है और जॉन विली से 2019 की तारीख ले सकते हैं) की ओर इशारा कर रहे हैं ।

— निक कॉक्स