जब नमूना को बूटस्ट्रैपिंग के लिए केंद्रित करने की आवश्यकता होती है?

जब नमूना के वितरण को अनुमानित करने के तरीके के बारे में पढ़ रहा हूं तो मेरा मतलब है कि मैं नॉनपैमेट्रिक बूटस्ट्रैप विधि के पार आया था। जाहिरा तौर पर एक के वितरण के द्वारा , जहां के वितरण से लगभग अनुमानित किया जा सकता है , का नमूना अर्थ दर्शाता है बूटस्ट्रैप नमूना। $\bar{X}_n-\mu$ $\bar{X}_n^*-\bar{X}_n$ $\bar{X}_n^*$

मेरा सवाल तो यह है: क्या मुझे केंद्र की आवश्यकता है? किस लिए?

क्या मैं केवल द्वारा अनुमानित नहीं कर सका ? $\mathbb{P}\left(\bar{X}_n \leq x\right)$ $\mathbb{P}\left(\bar{X}_n^* \leq x\right)$

— क्रिस्टीन
स्रोत

मुझे नहीं लगता कि आपको कुछ भी करने की आवश्यकता क्यों है। यहां चर्चा किए गए सभी नमूने समान आकार के हैं?

— बिटवाइज

समान आकार, हाँ। मैं या तो केंद्रीकरण का कारण नहीं देखता। क्या कोई गणितीय स्पष्टीकरण के साथ आने में सक्षम होगा कि हमें ऐसा क्यों या क्यों नहीं करना है? मेरा मतलब है, क्या हम साबित कर सकते हैं कि बूटस्ट्रैप काम करता है या काम नहीं करता है अगर हम केंद्र नहीं करते हैं?

— क्रिस्टिन

(Btw, एक प्रमाण जो बूटस्ट्रैप उस मामले के लिए काम करता है, जहां हम केंद्रित हैं, बिकल, पीजे और डीए फ्रीडमैन (1981) में पाया जा सकता है, बूटस्ट्रैप के लिए कुछ विषम सिद्धांत ।)

— क्रिस्टीन

मैं जिज्ञासु हूं: यह सवाल क्यों नीचा दिखाया गया है?

— कार्डिनल

शायद हम केंद्रीय सीमा प्रमेय का उपयोग करने में सक्षम होने के लिए प्रवेश करते हैं, जो हमें है, उसी वितरण को रूप में परिवर्तित करता है , जिसका नाम । हो सकता है कि बिना केंद्र के कोई भी दवा उपलब्ध न हो जो हमें बताए कि क्या यह काम करता है।

n^{\frac{1}{2}} ({\bar{X}}_{n} - μ)

$n^{\frac{1}{2}}(\bar{X}_n-\mu)$

n^{\frac{1}{2}} ({\bar{X}}_{n}^{*} - {\bar{X}}_{n})

$n^{\frac{1}{2}}(\bar{X}_n^*-\bar{X}_n)$

N (0, σ^{2})

$\mathcal{N}(0,\sigma^2)$

— केलु

हाँ, आप कर सकते हैं अनुमानित द्वारा लेकिन यह इष्टतम नहीं है। यह प्रतिशतक बूटस्ट्रैप का एक रूप है। हालाँकि, प्रतिशतक बूटस्ट्रैप अच्छा प्रदर्शन नहीं करता है, यदि आप जनसंख्या के बारे में अनुमान लगाना चाह रहे हैं जब तक कि आपके पास एक बड़ा नमूना आकार न हो। (यह नमूने के आकार के छोटे होने पर कई अन्य अनुमान समस्याओं के साथ अच्छा प्रदर्शन करता है।) मैं सामाजिक और व्यवहार विज्ञान , सीआरसी प्रेस, 2012 के लिए विलकॉक्स के मॉडर्न स्टेटिस्टिक्स से यह निष्कर्ष निकालता हूं । एक सैद्धांतिक प्रमाण मुझसे परे है जो मुझे डर लगता है । $\mathbb{P}\left(\bar{X}_n \leq x\right)$ $\mathbb{P}\left(\bar{X}_n^* \leq x\right)$

सेंटरिंग अप्रोच पर एक वेरिएंट अगला कदम रखता है और आपके सेंटेड बूटस्ट्रैप स्टेटिस्टिक को री-सैंपल स्टैण्डर्ड डिविएशन और सैंपल साइज के साथ स्केल करता है, जिस तरह से स्टैटिस्टिक की तरह गणना करता है। इन टी आँकड़ों के वितरण से प्राप्त मात्रा का उपयोग एक विश्वास अंतराल के निर्माण या एक परिकल्पना परीक्षण करने के लिए किया जा सकता है। यह बूटस्ट्रैप-टी विधि है और यह माध्य के बारे में निष्कर्ष बनाते समय बेहतर परिणाम देती है।

चलो एक बूटस्ट्रैप फिर से नमूना के आधार पर पुन: नमूना मानक विचलन हो सकता है, एन -1 का उपयोग करते हुए हर के रूप में; और मूल नमूने का मानक विचलन हो। चलो $s^*$

$T^*=\frac{\bar{X}_n^*-\bar{X}}{s^*/\sqrt{n}}$

के नकली वितरण की की 97.5th और 2.5th प्रतिशतक के लिए एक विश्वास अंतराल बना सकते हैं द्वारा: $T^*$ $\mu$

$\bar{X}-T^*_{0.975} \frac{s}{\sqrt{n}}, \bar{X}-T^*_{0.025} \frac{s}{\sqrt{n}}$

नीचे दिए गए सिमुलेशन परिणामों पर विचार करें, यह दिखाते हुए कि बुरी तरह से मिश्रित मिश्रित वितरण के साथ इस पद्धति से आत्मविश्वास अंतराल में या तो प्रतिशत मान बूटस्ट्रैप विधि की तुलना में अधिक बार सही मूल्य होता है या बिना बूटस्ट्रैपिंग वाले सांख्यिकीय में एक पारंपरिक अंतर्ज्ञान होता है।

compare.boots <- function(samp, reps = 599){
    # "samp" is the actual original observed sample
    # "s" is a re-sample for bootstrap purposes

    n <- length(samp)

    boot.t <- numeric(reps)
    boot.p <- numeric(reps)

    for(i in 1:reps){
        s <- sample(samp, replace=TRUE)
        boot.t[i] <- (mean(s)-mean(samp)) / (sd(s)/sqrt(n))
        boot.p[i] <- mean(s)
    }

    conf.t <- mean(samp)-quantile(boot.t, probs=c(0.975,0.025))*sd(samp)/sqrt(n)
    conf.p <- quantile(boot.p, probs=c(0.025, 0.975))

    return(rbind(conf.t, conf.p, "Trad T test"=t.test(samp)$conf.int))
}

# Tests below will be for case where sample size is 15
n <- 15

# Create a population that is normally distributed
set.seed(123)
pop <- rnorm(1000,10,1)
my.sample <- sample(pop,n)
# All three methods have similar results when normally distributed
compare.boots(my.sample)

यह निम्नलिखित देता है (conf.t बूटस्ट्रैप टी विधि है; conf.p प्रतिशतक बूटस्ट्रैप विधि है)।

          97.5%     2.5%
conf.t      9.648824 10.98006
conf.p      9.808311 10.95964
Trad T test 9.681865 11.01644

तिरछे वितरण से एकल उदाहरण के साथ:

# create a population that is a mixture of two normal and one gamma distribution
set.seed(123)
pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
my.sample <- sample(pop,n)
mean(pop)
compare.boots(my.sample)

यह निम्नलिखित देता है। ध्यान दें कि "conf.t" - बूटस्ट्रैप टी संस्करण - अन्य दो की तुलना में व्यापक आत्मविश्वास अंतराल देता है। मूल रूप से, यह आबादी के असामान्य वितरण के जवाब में बेहतर है।

> mean(pop)
[1] 13.02341
> compare.boots(my.sample)
                97.5%     2.5%
conf.t      10.432285 29.54331
conf.p       9.813542 19.67761
Trad T test  8.312949 20.24093

अंत में यहाँ एक हजार सिमुलेशन देखने को मिलते हैं कि कौन सा संस्करण आत्मविश्वास अंतराल देता है जो सबसे अधिक बार सही होता है:

# simulation study
set.seed(123)
sims <- 1000
results <- matrix(FALSE, sims,3)
colnames(results) <- c("Bootstrap T", "Bootstrap percentile", "Trad T test")

for(i in 1:sims){
    pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
    my.sample <- sample(pop,n)
    mu <- mean(pop)
    x <- compare.boots(my.sample)
    for(j in 1:3){
        results[i,j] <- x[j,1] < mu & x[j,2] > mu
    }
}

apply(results,2,sum)

यह नीचे दिए गए परिणाम देता है - संख्या 1,000 में से कई बार होती है कि आत्मविश्वास अंतराल में एक नकली आबादी का सही मूल्य होता है। ध्यान दें कि हर संस्करण की वास्तविक सफलता दर 95% से काफी कम है।

     Bootstrap T Bootstrap percentile          Trad T test 
             901                  854                  890

— पीटर एलिस
स्रोत

धन्यवाद, यह बहुत जानकारीपूर्ण था। यह .pdf (एक पाठ से) आपके निष्कर्ष के लिए एक चेतावनी का वर्णन करता है: psych.mxaster.ca/bennett/boot09/percentileT.pdf यह एक सारांश है जो बेनेट कहता है: कई डेटासेट में संख्याएँ होती हैं जो> = 0 (यानी डेटा) गिना जा सकता है), जिस स्थिति में सीआई को नकारात्मक मान नहीं होना चाहिए। बूटस्ट्रैप-टी पद्धति के उपयोग से यह हो सकता है, जिससे विश्वास अंतराल अव्यक्त हो जाता है। आवश्यकता है कि डेटा> = 0 सामान्य वितरण धारणा का उल्लंघन है। यह एक समस्या नहीं है जब एक प्रतिशत बूटस्ट्रैप्ड सीआई का निर्माण होता है

— हेंस ज़ीग्लर