मैं गैर-सामान्य रूप से वितरित नमूने में किसी माध्यम के विश्वास अंतराल की गणना कैसे कर सकता हूं?


19

मैं गैर-सामान्य रूप से वितरित नमूने में किसी माध्यम के विश्वास अंतराल की गणना कैसे कर सकता हूं?

मैं समझता हूं कि बूटस्ट्रैप विधियां आमतौर पर यहां उपयोग की जाती हैं, लेकिन मैं अन्य विकल्पों के लिए खुला हूं। जबकि मैं एक गैर-पैरामीट्रिक विकल्प की तलाश कर रहा हूं, अगर कोई मुझे समझा सकता है कि पैरामीट्रिक समाधान मान्य है जो ठीक होगा। नमूना का आकार> 400 है।

अगर कोई आर में एक नमूना दे सकता है तो इसकी बहुत सराहना की जाएगी।


3
केंद्रीय सीमा प्रमेय का तात्पर्य है कि मूल डेटा के वितरण (अन्य शर्तों के तहत) की परवाह किए बिना नमूना माध्य का सीमित वितरण सामान्य है। कई मामलों में एक नमूना आकार इतना बड़ा होता है कि सामान्य सन्निकटन काफी सटीक होता है, लेकिन सटीकता माता-पिता के वितरण पर निर्भर करती है- यह मदद कर सकता है यदि आप, उदाहरण के लिए, मूल डेटा का हिस्टोग्राम पोस्ट किया है। n>400
मैक्रो

जवाबों:


18

सबसे पहले, मैं जांच करूंगा कि क्या कार्य हाथ में लिए एक उचित सूचकांक है। यदि आप एक तिरछी वितरण के "एक विशिष्ट / या केंद्रीय मूल्य" की तलाश कर रहे हैं, तो इसका मतलब आपको गैर-प्रतिनिधि मूल्य के लिए इंगित कर सकता है। लॉग-सामान्य वितरण पर विचार करें:

x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")

मध्य-सामान्य वितरण के लिए माध्य (लाल), 20% छंटनी माध्य (हरा), और माध्य (नीला)

माध्य (लाल रेखा) डेटा के थोक से दूर है। 20% छंटनी का मतलब (हरा) और माध्य (नीला) "विशिष्ट" मान के करीब है।

परिणाम आपके "गैर-सामान्य" वितरण के प्रकार पर निर्भर करते हैं (आपके वास्तविक डेटा का हिस्टोग्राम सहायक होगा)। यदि यह तिरछा नहीं है, लेकिन भारी पूंछ है, तो आपके CI बहुत चौड़े होंगे।

किसी भी मामले में, मुझे लगता है कि वास्तव में बूटस्ट्रैपिंग एक अच्छा तरीका है, क्योंकि यह आपको विषमतापूर्ण सीआई भी दे सकता है। Rपैकेज simplebootएक अच्छी शुरुआत है:

library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))

... आपको निम्नलिखित परिणाम देता है:

# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals : 
Level     Percentile            BCa          
95%   ( 1.062,  1.228 )   ( 1.065,  1.229 )  
Calculations and Intervals on Original Scale

विस्तृत उत्तर के लिए बहुत बहुत धन्यवाद। क्या आप पर्सेंटाइल और एडजस्टेड पर्सेंटाइल (बीसीए) के आंकड़ों के बीच (न्यूनतम) अंतर पर टिप्पणी करना चाहेंगे?
fmark

"बूटस्ट्रैप पूर्वाग्रह-सुधार त्वरित (बीसीए) अंतराल प्रतिशत पद्धति का एक संशोधन है जो पूर्वाग्रह और तिरछेपन के लिए सही करने के लिए प्रतिशत को समायोजित करता है" (हेस्टरबर्ग, टी।, मोनाघन, एस।, मूर, डी।, क्लिप्ससन, ए। और एपस्टीन, आर। (2005)। बूटस्ट्रैप के तरीके और क्रमपरिवर्तन परीक्षण। सांख्यिकी के अभ्यास का परिचय, 14.114.70।)। जब भी सॉफ्टवेयर इसे अनुमति देता है, बीसीए सही सीआई का उपयोग करें (ध्यान दें: इसकी आवश्यकता है> 1000 के अवशेष)
फेलिक्स एस

साधारण पैकेज के लिए प्रलेखन से ऐसा लगता है कि ट्रिमिंग के लिए तर्क अब समर्थित नहीं है। :(
एट

8

यदि आप अर्ध-पैरामीट्रिक समाधान के लिए खुले हैं, तो यहां एक है: जॉनसन, एन। (1978) संशोधित टी टेस्ट और असममित आबादी के लिए आत्मविश्वास अंतराल, जेएएसए । विश्वास अंतराल के केंद्र द्वारा स्थानांतरित किया जाता हैκ^/(6रों2n), कहाँ पे κ^तीसरे क्षण की जनसंख्या का अनुमान है, और चौड़ाई समान है। यह देखते हुए कि विश्वास अंतराल की चौड़ाई हैहे(n-1/2), और माध्य के लिए सुधार है हे(n-1), आपको एक बहुत बड़ा स्किवनेस (ऑर्डर का) होना चाहिए n1/2>20) इसके साथ बात करने के लिए n>400। बूटस्ट्रैप आपको एक समान रूप से समतुल्य अंतराल देना चाहिए, लेकिन आपके पास चित्र में जोड़ा गया सिमुलेशन शोर भी होगा। (बूटस्ट्रैप सीआई सामान्य बूटस्ट्रैप और एडगेवर्थ एक्सपेंशन (हॉल 1995) सिद्धांत के अनुसार, स्वचालित रूप से एक ही पहले क्रम के लिए सही करता है।) सिमुलेशन के साक्ष्य के बारे में मुझे जो याद हो सकता है, उसके लिए बूटस्ट्रैप सीआई एनालिटिक के आधार पर सीआई की तुलना में कुछ हद तक सही हैं। भाव, हालांकि।

माध्य सुधार का विश्लेषणात्मक रूप होने से आपको इस बात का तुरंत अंदाजा हो जाएगा कि क्या वास्तव में तिरछेपन को आपके मतलब अनुमान समस्या में ध्यान में रखा जाना चाहिए। एक तरह से, यह एक नैदानिक ​​उपकरण है कि स्थिति कितनी खराब है। फेलिक्स द्वारा दिए गए लॉगनॉर्मल डिस्ट्रीब्यूशन के उदाहरण में, जनसंख्या वितरण का सामान्यीकृत तिरछापन है(exp(1)+2)*exp(1)-1, जो है kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877। CI की चौड़ाई (जनसंख्या वितरण के मानक विचलन का उपयोग करते हुए s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197) है 2*s*qnorm(0.975)/sqrt(n) = 0.2678999, जबकि माध्य के लिए सुधार है kappa*s/(6*n) = 0.00222779(मानक विचलन के बाद से अंश में स्थानांतरित हो गया है क्योंकि kappaस्केल-फ्री तिरछा है, जबकि जॉनसन का सूत्र अनिश्चित जनसंख्या तीसरे के साथ संबंधित है) केंद्रीय पल), यानी, सीआई की चौड़ाई का लगभग 1/100 वाँ भाग। क्या आपको परेशान होना चाहिए? मैं कहूंगा, नहीं।


2

एक सामान्य वितरण की कोशिश करो, गणना:

  1. डेटा का लघुगणक;
  2. का मतलब और मानक विचलन (1)
  3. (2) के अनुरूप आत्मविश्वास अंतराल
  4. (3) का घातांक

आप अपेक्षित मान के आस-पास एक असममित आत्मविश्वास अंतराल (जो कच्चे डेटा का मतलब नहीं है) के साथ समाप्त करेंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.