बूटस्ट्रैप्ड रिसैम्पल्स से लिया गया एक आत्मविश्वास अंतराल का क्या अर्थ है?


38

मैं बूटस्ट्रैपिंग और आत्मविश्वास अंतराल के बारे में इस साइट पर कई सवाल देख रहा हूं, लेकिन मैं अभी भी भ्रमित हूं। मेरी उलझन का कारण शायद यह है कि मैं बहुत सारे उत्तरों को समझने के लिए अपने आँकड़ों के ज्ञान में पर्याप्त उन्नत नहीं हूँ। मैं परिचयात्मक सांख्यिकी पाठ्यक्रम के माध्यम से लगभग आधे रास्ते में हूं और मेरा गणित स्तर केवल मध्य-बीजगणित II के बारे में है, इसलिए उस स्तर पर पिछले कुछ भी मुझे भ्रमित करता है। यदि इस साइट पर जानकार लोगों में से कोई भी मेरे स्तर पर इस मुद्दे को समझा सकता है तो यह बहुत मददगार होगा।

हम क्लास में सीख रहे थे कि बूटस्ट्रैप विधि का उपयोग करके रेजमों को कैसे लिया जाए और उन आंकड़ों का उपयोग करने के लिए जिन्हें हम मापना चाहते हैं, कुछ आँकड़ों के लिए एक विश्वास अंतराल का निर्माण करें। उदाहरण के लिए, मान लें कि हम एक बड़ी आबादी से एक नमूना लेते हैं और पाते हैं कि 40% का कहना है कि वे कैंडिडेट ए को वोट देंगे। यह आबादी के बारे में कुछ पता लगाने के लिए। इसलिए हम रिसैम्पल्स लेते हैं और पाते हैं (95% विश्वास स्तर का उपयोग करके) कि परिणामी आत्मविश्वास अंतराल 35% से 45% तक होता है।

मेरा सवाल यह है कि वास्तव में इस विश्वास अंतराल का क्या मतलब है ?

मैं पढ़ता रहता हूं कि (फ़्रीक्वेंटिस्ट) कॉन्फिडेंस इंटरवल और (बायेसियन) विश्वसनीय इंटरवल के बीच अंतर है। अगर मैं सही तरीके से समझ गया, तो एक विश्वसनीय अंतराल यह कहेगा कि 95% संभावना है कि हमारी स्थिति में सही पैरामीटर दिए गए अंतराल (35% -45%) के भीतर है, जबकि एक विश्वास अंतराल कहेगा कि इसमें 95% है कि इसमें स्थिति का प्रकार (लेकिन विशेष रूप से हमारी स्थिति में आवश्यक रूप से नहीं) हम जिस पद्धति का उपयोग कर रहे हैं, वह सटीक रूप से रिपोर्ट करेगा कि सही पैरामीटर दिए गए अंतराल के भीतर है।

इस परिभाषा को सही मानते हुए, मेरा प्रश्न है: "असली पैरामीटर" क्या है जो हम बात कर रहे हैं जब बूटस्ट्रैप विधि का उपयोग करके बनाए गए आत्मविश्वास अंतराल का उपयोग कर रहे हैं? क्या हम (a) मूल जनसंख्या का सही पैरामीटर , या (b) नमूने का असली पैरामीटर बता रहे हैं ? यदि (क), तो हम कह रहे हैं कि समय के साथ बूटस्ट्रैप विधि का 95% मूल आबादी के बारे में सही कथन की रिपोर्ट करेगा। लेकिन हम संभवतः यह कैसे जान सकते हैं? पूरे बूटस्ट्रैप विधि धारणा पर आराम नहीं करता हैमूल नमूना उस आबादी का एक सटीक प्रतिबिंब है जिसे उससे लिया गया था? यदि (बी) तो मुझे विश्वास अंतराल का अर्थ बिल्कुल भी समझ में नहीं आता है। क्या हम पहले से ही नमूने के असली पैरामीटर को नहीं जानते हैं? यह एक सीधा माप है!

मैंने अपने शिक्षक के साथ इस पर चर्चा की और वह काफी मददगार था। लेकिन मैं अभी भी उलझन में हूं।

जवाबों:


28

यदि बूटस्ट्रैपिंग प्रक्रिया और विश्वास अंतराल के गठन को सही ढंग से निष्पादित किया गया था, तो इसका मतलब किसी भी अन्य आत्मविश्वास अंतराल के समान है। एक निरंतर दृष्टिकोण से, एक 95% सीआई का अर्थ है कि यदि पूरे अध्ययन को बार-बार पहचाने जाने वाले विज्ञापन infinitum थे , तो इस तरह से गठित 95% आत्मविश्वास अंतराल में सही मूल्य शामिल होगा। बेशक, आपके अध्ययन में, या किसी भी व्यक्तिगत अध्ययन में, आत्मविश्वास अंतराल में या तो सही मूल्य शामिल होगा या नहीं, लेकिन आपको यह नहीं पता होगा कि कौन सा है। इन विचारों को और समझने के लिए, यह आपको यहाँ मेरा जवाब पढ़ने में मदद कर सकता है: 95% कॉन्फिडेंस इंटरवल (CI) का मतलब होने के 95% संभावना क्यों नहीं है?

आपके आगे के सवालों के बारे में, 'सही मूल्य' प्रासंगिक आबादी के वास्तविक पैरामीटर को संदर्भित करता है। (नमूने में पैरामीटर नहीं हैं, उनके पास आंकड़े हैं ; उदाहरण के लिए, नमूना माध्य, , एक नमूना आँकड़ा है, लेकिन जनसंख्या का मतलब है, , एक जनसंख्या पैरामीटर है।) जैसा कि हम यह जानते हैं, व्यवहार में। हम नहीं। आप सही हैं कि हम कुछ मान्यताओं पर भरोसा कर रहे हैं - हम हमेशा से हैं। यदि वे धारणाएँ सही हैं, तो यह सिद्ध किया जा सकता है कि गुण धारण करते हैं। यह 1970 के दशक के अंत और 1980 की शुरुआत में एफ़्रॉन के काम का बिंदु था, लेकिन अधिकांश लोगों के लिए गणित कठिन है। बूटस्ट्रैप के कुछ गणितीय स्पष्टीकरण के लिए, @ StasK का उत्तर यहां देखें: लेपर्स के लिए व्याख्या करना कि बूटस्ट्रैप क्यों काम करता है μx¯μ। गणित के त्वरित प्रदर्शन के लिए, निम्नलिखित सिमुलेशन पर विचार करें R:

# a function to perform bootstrapping
boot.mean.sampling.distribution = function(raw.data, B=1000){
  # this function will take 1,000 (by default) bootsamples calculate the mean of 
  # each one, store it, & return the bootstrapped sampling distribution of the mean

  boot.dist = vector(length=B)     # this will store the means
  N         = length(raw.data)     # this is the N from your data
  for(i in 1:B){
    boot.sample  = sample(x=raw.data, size=N, replace=TRUE)
    boot.dist[i] = mean(boot.sample)
  }
  boot.dist = sort(boot.dist)
  return(boot.dist)
}

# simulate bootstrapped CI from a population w/ true mean = 0 on each pass through
# the loop, we will get a sample of data from the population, get the bootstrapped 
# sampling distribution of the mean, & see if the population mean is included in the
# 95% confidence interval implied by that sampling distribution

set.seed(00)                       # this makes the simulation reproducible
includes = vector(length=1000)     # this will store our results
for(i in 1:1000){
  sim.data    = rnorm(100, mean=0, sd=1)
  boot.dist   = boot.mean.sampling.distribution(raw.data=sim.data)
  includes[i] = boot.dist[25]<0 & 0<boot.dist[976]
}
mean(includes)     # this tells us the % of CIs that included the true mean
[1] 0.952

हम किन विशेष धारणाओं पर भरोसा कर रहे हैं?
इरावैन

2
धन्यवाद। मुझे लगता है कि मैंने उस धागे के दूसरे उत्तर में जो पाया था, वह पाया: "याद रखें कि हम आबादी के मतलब का अनुमान लगाने के लिए बूटस्ट्रैप नमूनों के साधनों का उपयोग नहीं कर रहे हैं, हम उस के लिए नमूना मतलब का उपयोग करते हैं (या जो भी ब्याज का आंकड़ा हो है)। लेकिन हम नमूने के नमूने (अनुमानों, पूर्वाग्रह) का अनुमान लगाने के लिए बूटस्ट्रैप नमूनों का उपयोग कर रहे हैं। और नमूनाकरण के प्रभाव को जानने के लिए एक ज्ञात जनसंख्या (जो हमें आशा है कि ब्याज की आबादी का प्रतिनिधि है) से नमूने का उपयोग करने से समझ में आता है। और बहुत कम परिपत्र है। " ...
iarwain

1
... दूसरे शब्दों में, सभी सीआई हमें बता रहे हैं कि हमारी आबादी के लगभग समान रूप से, हम उस जनसंख्या से लिए गए 95% नमूनों की उम्मीद करेंगे कि वास्तविक मूल्य +/- त्रुटि के मार्जिन को प्रतिबिंबित करे। इसलिए हम जो कुछ भी कर रहे हैं वह बहुत ही मोटा सुराग दे रहा है - हालांकि हमारे पास सबसे अच्छा सुराग है - हमारे जनसंख्या आंकड़े के कितने करीब हो सकता है कि यह सही जनसंख्या पैरामीटर के लिए हो। यदि ऐसा है, तो ऐसा लगता है कि हमें CI में सही संख्याओं को भी गंभीरता से नहीं लेना चाहिए - उनका मतलब कुछ इस तरह से है, "नमूना आँकड़ा शायद इस डिग्री के लगभग लगभग सटीक है।" क्या मैने इसे सही समझा?
इरावैन

1
यह अनिवार्य रूप से सही है। एक CI हमें अपने अनुमान की शुद्धता का एहसास दिलाता है, लेकिन हम कभी नहीं जानते कि हमारे वास्तविक (एहसास) CI में सही मूल्य है या नहीं। प्राथमिक धारणा यह है कि हमारा डेटा ब्याज की आबादी का प्रतिनिधि है। ध्यान दें कि इनमें से कुछ भी विशेष रूप से CI को बूटस्ट्रैप करने के लिए नहीं हैं , आपके पास एक ही व्याख्या और धारणा है जो कि एसिमेटिक थ्योरी के माध्यम से गणना की जाती है।
गूँग - मोनिका

1
यह एक उत्कृष्ट व्याख्या है। मैं केवल इतना ही जोड़ूंगा कि "सच मान" कई बार अध्ययन डिजाइन की एक कलाकृति है। राजनीतिक उम्मीदवारों के लिए मतदान में, स्तरीकृत नमूने एक यादृच्छिक नमूना की तुलना में बहुत अधिक सटीक और विश्वसनीय अनुमान देते हैं। लागत गलत समूह को डिज़ाइन द्वारा ओवरसम्पलिंग का जोखिम है। उस स्थिति में, 95% CI सही मान पर केंद्रित होता है, वह जो अध्ययन विज्ञापन infinitum की प्रतिकृति के द्वारा प्राप्त किया जाता है , लेकिन यह मान एक सच्चे पैरामीटर का दूसरा अर्थ नहीं है: जिस पैरामीटर का हम अनुमान लगाना चाहते थे । यही कारण है कि अध्ययन डिजाइन और अनुमान आंतरिक रूप से जुड़े हुए हैं।
एडमो

0

आप जो कह रहे हैं, वह यह है कि बूटस्ट्रैप्ड रिसैम्पल्स से विश्वास अंतराल खोजने की आवश्यकता नहीं है। यदि आप बूटस्ट्रैप्ड रिसैम्पल्स से प्राप्त स्टेटिस्टिक (नमूना माध्य या नमूना अनुपात) से संतुष्ट हैं, तो कोई विश्वास अंतराल नहीं मिलता है और इसलिए, व्याख्या का कोई सवाल नहीं है। लेकिन अगर आप बूटस्ट्रैप्ड रिसैम्पस से प्राप्त आंकड़े से संतुष्ट नहीं हैं या संतुष्ट हैं, लेकिन फिर भी विश्वास अंतराल खोजना चाहते हैं, तो ऐसे आत्मविश्वास अंतराल की व्याख्या किसी भी अन्य आत्मविश्वास अंतराल के समान है। ऐसा इसलिए है क्योंकि जब आपके बूटस्ट्रैप किए गए रिज़ॉल्यूशन मूल आबादी का बिल्कुल प्रतिनिधित्व करते हैं (या ऐसा माना जाता है), फिर विश्वास अंतराल की आवश्यकता कहां है? बूटस्ट्रैप किए गए रेज़मैल्स से सांख्यिकीय मूल जनसंख्या पैरामीटर ही है, लेकिन जब आप सांख्यिकीय को मूल जनसंख्या पैरामीटर नहीं मानते हैं, तो विश्वास अंतराल खोजने की आवश्यकता है। तो, यह सब आप कैसे विचार करते हैं। मान लें कि आपने बूटस्ट्रैप किए गए रिसैम्पल्स से 95% विश्वास अंतराल की गणना की है। अब व्याख्या है: "95% बार, यह बूटस्ट्रैप विधि सही मायने में वास्तविक जनसंख्या पैरामीटर वाले आत्मविश्वास अंतराल के परिणामस्वरूप होती है"।

(यह वही है जो मुझे लगता है। यदि कोई गलती हो तो मुझे सुधारें)।


-1

हम मूल जनसंख्या के सही पैरामीटर का उल्लेख कर रहे हैं। यह मानकर ऐसा करना संभव है कि डेटा मूल आबादी से यादृच्छिक रूप से खींचा गया था - उस मामले में, गणितीय तर्क दिखा रहे हैं कि बूटस्ट्रैप प्रक्रियाएं एक वैध आत्मविश्वास अंतराल प्रदान करेंगी, कम से कम डेटासेट का आकार पर्याप्त रूप से बड़ा हो जाता है ।


इसलिए यह समझने के लिए ऐसा लगता है कि यह क्यों काम करता है मुझे गणितीय प्रमाणों का पालन करने के लिए पर्याप्त गणित जानने की आवश्यकता होगी। क्या वो सही है?
इरावैन

मुझे ऐसा लगता है (मैं सबूतों से परिचित नहीं हूं)
गैरेथ

हालाँकि, आप देख सकते हैं कि जैसे-जैसे सैंपल का आकार बड़ा होता जाता है, वैसे-वैसे सैंपल आबादी की तरह दिखने लगता है। उदाहरण के लिए, मान लें कि मैं दिए गए माध्य और विचरण के साथ एक सामान्य वितरण से 1 मिलियन नमूने लेता हूं। इस नमूने को कॉल करें एक्स से खींचा गया एक यादृच्छिक नमूना (प्रतिस्थापन के साथ) मूल वितरण से खींचे गए यादृच्छिक नमूने की तरह दिखता है। मुझे लगता है कि यह मूल विचार है कि यह क्यों काम करता है।
गैरेथ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.