अनुपात के लिए विश्वास अंतराल की गणना कैसे करें?


12

एक प्रयोग है कि एक अनुपात आउटपुट पर विचार 0 और 1. इस अनुपात प्राप्त किया जाता है इस संदर्भ में प्रासंगिक नहीं होने चाहिए के बीच। यह इस प्रश्न के पिछले संस्करण में विस्तृत था , लेकिन मेटा पर चर्चा के बाद स्पष्टता के लिए हटा दिया गया थाXi

यह प्रयोग बार दोहराया जाता है , जबकि n छोटा होता है (लगभग 3-10)। एक्स मैं ग्रहण कर रहे हैं स्वतंत्र और समान रूप से वितरित किया जाना है। इन से हम की गणना के औसत से मतलब का अनुमान ¯ एक्स , लेकिन कैसे एक इसी विश्वास अंतराल की गणना करने के [ यू , वी ] ?nnXiX¯[U,V]

आत्मविश्वास अंतराल की गणना के लिए मानक दृष्टिकोण का उपयोग करते समय, कभी-कभी 1. से बड़ा होता है। हालांकि, मेरा अंतर्ज्ञान यह है कि सही आत्मविश्वास अंतराल ...V

  1. ... सीमा 0 और 1 के भीतर होनी चाहिए
  2. ... बढ़ते एन के साथ छोटा होना चाहिएn
  3. ... लगभग मानक दृष्टिकोण का उपयोग करके गणना की गई के क्रम में है
  4. ... एक गणितीय ध्वनि विधि द्वारा गणना की जाती है

ये पूर्ण आवश्यकताएं नहीं हैं, लेकिन मैं कम से कम यह समझना चाहूंगा कि मेरा अंतर्ज्ञान गलत क्यों है।

मौजूदा उत्तरों के आधार पर गणना

निम्नलिखित में, मौजूदा उत्तरों से उत्पन्न आत्मविश्वास अंतराल की तुलना {Xi}={0.985,0.986,0.935,0.890,0.999}

मानक दृष्टिकोण (उर्फ "स्कूल मठ")

,σ2=0.0204, इस प्रकार 99% विश्वास अंतराल है[0.865,1.053]। यह अंतर्विरोध अंतर्ज्ञान 1।X¯=0.959σ2=0.0204[0.865,1.053]

फसल (टिप्पणियों में @soakley द्वारा सुझाए गए)

[0.865,1.000]

लॉजिस्टिक रिग्रेशन मॉडल (@Rose Hartman द्वारा सुझाया गया)

{4.18,4.25,2.09,2.66,6.90}[0.173,7.87][0.543,0.999]

द्विपद अनुपात विश्वास अंतराल (@Tim द्वारा सुझाया गया)

दृष्टिकोण काफी अच्छा लग रहा है, लेकिन दुर्भाग्य से यह प्रयोग के लायक नहीं है। परिणामों को संयोजित करने और @ZahavaKor द्वारा सुझाए गए एक बड़े बर्नौली प्रयोग के रूप में इसकी व्याख्या निम्नलिखित परिणामों में की गई है:

985+986+890+935+999=479551000[0.9511,0.9657]Xi

बूटस्ट्रैपिंग (@soakley द्वारा सुझाया गया)

n=530933125=0.99[0.91,0.99][min(Xi),max(Xi)]n


आप अपने दूसरे दृष्टिकोण में सही हैं। मैं पहले एक के बारे में निश्चित नहीं हूं - यह सांख्यिकीय रूप से स्पष्ट रूप से नहीं कहा गया है। जहां तक ​​मुझे पता है, प्रतिलिपि प्रस्तुत करने का मतलब है कि एक ही प्रयोग एक अलग शोधकर्ता द्वारा किया जाता है और उन्हें समान परिणाम मिलते हैं। आपको अपना लक्ष्य अधिक स्पष्ट रूप से निर्दिष्ट करने की आवश्यकता है, अधिमानतः एक सांख्यिकीय परिकल्पना के संदर्भ में जिस पैरामीटर के बारे में आप अनुमान लगाने की कोशिश कर रहे हैं। शब्द "प्रतिलिपि प्रस्तुतिकरण" का उपयोग करना मेरे विचार में बहुत अस्पष्ट है।
ज़ाहवा कोर

आप सही हैं, पुनरावृत्ति सही शब्द है न कि पुनरुत्पत्ति। मैं सांख्यिकीय रूप से एक परिभाषा बनाने की कोशिश करूंगा।
कोलो

@ZahavaKor मैंने पुनरावृत्ति के बारे में अपने अंडरस्क्राइब किए गए उदाहरण को हटा दिया और अपने वास्तविक एप्लिकेशन को यह उम्मीद करते हुए निर्दिष्ट किया कि यह मेरे मुद्दे को स्पष्ट करता है और भ्रमित नहीं करता है।
कोलो

यदि आप वास्तव में आकार 1000 के नमूने ले रहे हैं, तो आपने सही तरीके से रेज़म्पलिंग दृष्टिकोण लागू नहीं किया है। लेकिन उस डेटा के साथ, आपको पुनरावर्तन की आवश्यकता नहीं है और आपको मानक द्विपद दृष्टिकोण के साथ अच्छे परिणाम (अर्थात संकीर्ण आत्मविश्वास अंतराल) प्राप्त होने चाहिए, जैसा कि आपने ऊपर पाया। सिर्फ इसलिए कि आपके व्यक्तिगत डेटा बिंदु परिणामी अंतराल में नहीं हैं, इसका मतलब यह नहीं है कि अंतराल गलत है।
19

1
खैर, इस बारे में सोचें। आप 10 आइटम का नमूना लेते हैं और 9 सफलताएं प्राप्त करते हैं। मैं 1000 का नमूना लेता हूं और 900 सफलताएं प्राप्त करता हूं। माध्य का अधिक सटीक अनुमान किसके पास होगा? टिम द्वारा संदर्भित सूत्र का उपयोग करने का प्रयास करें यदि अंतर्ज्ञान अभी तक नहीं है। तो आपके प्रश्न में अंतिम उदाहरण में, नमूना आकार 5 नहीं है, यह 5000 है!
भिगोएँ

जवाबों:


6

सबसे पहले, स्पष्ट करने के लिए, आप जो काम कर रहे हैं वह काफी द्विपद वितरण नहीं है, जैसा कि आपका प्रश्न बताता है (आप इसे बर्नौली प्रयोग के रूप में देखें)। द्विपद वितरण असतत हैं --- परिणाम या तो सफलता या विफलता है। आपका परिणाम हर बार जब आप अपना प्रयोग चलाते हैं , न कि सफलताओं और असफलताओं का एक सेट, जो तब आप एक सारांश अनुपात की गणना करते हैं। उसके कारण, एक द्विपदीय अनुपात विश्वास अंतराल की गणना करने के तरीके आपकी बहुत सारी जानकारी को दूर फेंक देंगे। और फिर भी आप सही हैं कि यह इस तरह से व्यवहार करने के लिए समस्याग्रस्त है क्योंकि यह आम तौर पर वितरित किया जाता है क्योंकि आप एक सीआई प्राप्त कर सकते हैं जो आपके चर की संभावित सीमा को बढ़ाता है।

मैं लॉजिस्टिक रिग्रेशन के संदर्भ में इस बारे में सोचने की सलाह देता हूं। परिणाम और कोई भविष्यवक्ता के रूप में अपने अनुपात चर के साथ एक लॉजिस्टिक रिग्रेशन मॉडल चलाएं। अवरोधन और इसका CI आपको वह देगा जो आपको लॉगिट्स में चाहिए, और फिर आप इसे वापस आनुपातिक में बदल सकते हैं। आप केवल लॉजिस्टिक रूपांतरण भी कर सकते हैं, सीआई की गणना कर सकते हैं और फिर मूल पैमाने पर वापस परिवर्तित कर सकते हैं। मेरा अजगर भयानक है, लेकिन यहाँ आप यह कैसे कर सकते हैं कि आर में:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

कच्चे डेटा का हिस्टोग्राम

data_logits <- log(data/(1-data)) 
hist(data_logits)

लॉगिट का हिस्टोग्राम परिवर्तित डेटा

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

इन आंकड़ों के लिए 99% CI पर निम्न और ऊपरी सीमाएं हैं:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924

यह एक अच्छा दृष्टिकोण की तरह लगता है, हालांकि परिणाम वे नहीं हैं जो मैं सहज रूप से उम्मीद करूंगा: 0.99,0.94,0.94 के लिए डेटा_लॉग 4.59,2.75,2,75 है, [-2.73,9.47] का आत्मविश्वास अंतराल देता है। इस बैक को ट्रांसफ़ॉर्म करने से [0.061,0.999] मिलता है - जितना मैं उम्मीद करूंगा उससे कहीं ज्यादा बड़ा।
कोलो

1
केवल तीन टिप्पणियों के लिए, आपको एक बहुत बड़े आत्मविश्वास अंतराल की उम्मीद करनी चाहिए। आपके हिस्टोग्राम से, ऐसा लगता है कि आपके पास तीन से अधिक अवलोकन हैं --- मैंने आपके उदाहरण के साथ 0.99,0.94,0.94 उदाहरण के लिए सिर्फ उदाहरण दिया था। यदि आपका वास्तविक नमूना आकार तीन है, तो मैं विश्वास अंतराल की गणना करने की सलाह नहीं देता (या उस मामले के लिए साधन)।
रोज़ हार्टमैन

ऊपर हिस्टोग्राम मेरी समस्या को चित्रित करने के लिए अजगर स्क्रिप्ट से आता है। मैं वास्तविक दुनिया के प्रयोग से कई माप नहीं ले पा रहा हूं। कम से कम मापदंडों के हर संयोजन के लिए नहीं। मैं मानता हूं कि 3 बहुत छोटा हो सकता है और शायद 10 के बारे में अंतिम मूल्यांकन में संभव होगा, लेकिन निश्चित रूप से बहुत अधिक नहीं। तो मुझे इस बारे में क्या करना चाहिए कि यह प्रदर्शित करने के लिए कि मैं केवल एक माप प्राप्त करने के लिए भाग्यशाली नहीं था, लेकिन प्रयोग को दोहराने से पूरी तरह से कोई परिणाम नहीं मिलता है?
कोलो

@RoseHartman यह एक अच्छा स्पष्ट विवरण है, लेकिन प्रश्न में डेटा (n = 5) के नमूने पर लागू आपकी विधि को देखना भी अच्छा होगा।
पीएम

@scitamehtam मैंने अपना जवाब कोएलो को उदाहरण डेटा प्रदान करने से पहले लिखा था और स्पष्ट किया था कि नमूना का आकार 10 या उससे कम होगा। koalo ने तब से मूल प्रश्न को अपडेट किया है, जिसमें प्रत्येक उत्तर पद्धति से n = 5 डेटा के साथ काम किए गए उदाहरणों को शामिल किया गया है, बहुत मददगार है।
रोज हार्टमैन

3

आप resampling / बूटस्ट्रैपिंग का प्रयास करना चाह सकते हैं। आइए आपके द्वारा बताए गए साधारण केस को देखें।

0.99, 0.94, और 0.94 के 3 डेटा पॉइंट्स के साथ, आप रेज़मैपलिंग भी नहीं करेंगे क्योंकि आप सभी संभावित 27 सूचियों को सूचीबद्ध कर सकते हैं, प्रत्येक मामले में माध्य ज्ञात कर सकते हैं और फिर साधनों को क्रमबद्ध कर सकते हैं।

25/27=26/27=

n

यहाँ प्रश्न: हम एक क्रमपरिवर्तन परीक्षण के पैरामीटर के लिए एक विश्वास अंतराल कैसे बनाते हैं? कुछ आर कोड सहित और अधिक विवरण देता है।


जैसा कि एक अन्य टिप्पणी में लिखा गया है, n "3 से अधिक नहीं" होगा, लेकिन यदि आवश्यक हो तो n = 10 संभव है। हालांकि यह दृष्टिकोण इस बात की गारंटी देता है कि मेरा आत्मविश्वास अंतराल 1.0 से आगे नहीं जाएगा, यह अन्य विधियों द्वारा दिए गए आत्मविश्वास अंतराल को काफी कम करता है। वास्तव में, यह [न्यूनतम, अधिकतम] अंतराल से बड़ा कभी नहीं होगा।
कोलो

कितनी बार आपको लगता है कि औसत [न्यूनतम, अधिकतम] के बाहर होगा?
भिगोएँ

शायद ही कभी, लेकिन इसका मतलब यह भी है कि अगर [मिनट, अधिकतम] अंतराल मेरे दावों का समर्थन करने के लिए छोटा है तो मैं विश्वास अंतराल के बारे में भूल सकता हूं और बस [न्यूनतम, अधिकतम] प्रदान कर सकता हूं? मेरे अनुभव में, छोटे नमूने के आकारों के लिए, आत्मविश्वास अंतराल [मिनट, अधिकतम] की तुलना में बड़ा है।
कोलो

2

द्विपद विश्वास अंतराल एक लंबे समय के लिए सांख्यिकीय बहस का विषय रहा है। आपकी समस्या 100% से कम अनुपात मानती है, लेकिन यदि हम 100% का उपयोग करते हैं तो यह और भी अधिक समस्याग्रस्त हो जाता है। प्रश्न पूछने का एक व्यावहारिक तरीका यह है:

यह देखते हुए कि पिछले 2,000 वर्षों से हर दिन सूरज बिना असफल हुआ है, क्या संभावना है कि यह कल उठेगा?

p=1

इन पूंछों की गणना करने के लिए कई तरीके हैं। मैं गणित के लिए विकिपीडिया की जाँच करने की सलाह दूंगा, या यदि आप केवल उत्तर चाहते हैं, तो इस तरह के एक द्विपद अंतराल अंतराल कैलकुलेटर की खोज करें (जो होता है कि इसके पीछे गणित की कुछ और व्याख्या भी हो)।


जो मैं देख रहा हूं, उसके बहुत करीब है, लेकिन सूत्र केवल मेरे प्रयोग के एक रन के परिणाम के लिए विश्वास अंतराल की गणना करने के लिए लगते हैं और कई प्रयोगों के लिए एक आत्मविश्वास अंतराल नहीं है।
कोलो

इससे कोई फर्क नहीं पड़ता कि आपके पास एक रन है या कई रन हैं, जब तक कि भाजक (आपके उदाहरण में 100 पैकेट) सभी रन में समान रहता है। 100 में से प्रत्येक के 3 प्रयोग चलाना गणितीय रूप से 300 पैकेट के साथ एक प्रयोग चलाने के समान है, और आप द्विपद सूत्रों का उपयोग कर सकते हैं, लेकिन n = 300 और n = 100 के साथ नहीं। यदि भाजक समान नहीं हैं, तो आपको भारित माध्य (n के भार से भारित) को खोजने की आवश्यकता है और नया n n का योग होगा।
जहवा कोर

@ZahavaKor चूंकि यह एक टिप्पणी के लिए बहुत लंबा है, इसलिए मैंने अपने प्रश्न में एक संपादन जोड़ा। मैं यह नहीं कहता कि यह गलत है, लेकिन यह मेरी वर्तमान समझ से मेल नहीं खाता।
कोलो

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.