बूटस्ट्रैप CI और पी-वैल्यू की गणना के कई तरीके हैं। मुख्य मुद्दा यह है कि बूटस्ट्रैप के लिए अशक्त परिकल्पना के तहत डेटा उत्पन्न करना असंभव है। क्रमपरिवर्तन परीक्षण इसके लिए एक व्यवहार्य पुनरुत्पादन आधारित विकल्प है। एक उचित बूटस्ट्रैप का उपयोग करने के लिए आपको परीक्षण आँकड़ा के नमूने वितरण के बारे में कुछ धारणाएँ बनानी होंगी।
परीक्षण के अदर्शन की कमी के बारे में एक टिप्पणी: यह 95% सीआई को खोजने के लिए पूरी तरह से संभव है, अशक्त नहीं अभी तक एपी> 0.05 या इसके विपरीत। बेहतर समझौता करने के लिए, अशक्त के तहत बूटस्ट्रैप के नमूनों की गणना बजाय रूप में होनी चाहिए। । कहने का मतलब यह है कि अगर बूटस्ट्रैप नमूने में घनत्व को तिरछा किया जाता है, तो घनत्व को शून्य में छोड़ दिया जाना चाहिए। गैर-विश्लेषणात्मक (उदाहरण के लिए रेज़म्पलिंग) जैसे समाधानों के साथ CI के लिए परीक्षणों को उलटना संभव नहीं है।β * 0 = β * - ββ∗0=β^−β^∗β∗0=β^∗−β^
सामान्य बूटस्ट्रैप
एक दृष्टिकोण एक सामान्य बूटस्ट्रैप है जहां आप बूटस्ट्रैप वितरण के औसत और मानक विचलन लेते हैं, वितरण को शिफ्ट करके नल वितरण के तहत नमूना वितरण की गणना करते हैं और मूल बूटस्ट्रैप नमूने में अनुमान के बिंदु पर अशक्त वितरण से सामान्य प्रतिशत का उपयोग करते हैं। । यह एक उचित दृष्टिकोण है जब बूटस्ट्रैप वितरण सामान्य होता है, दृश्य निरीक्षण आमतौर पर यहां होता है। इस दृष्टिकोण का उपयोग करने वाले परिणाम आम तौर पर मजबूत के करीब होते हैं, या सैंडविच आधारित त्रुटि अनुमान जो कि विषमलैंगिकता और / या परिमित नमूना भिन्नता मान्यताओं के खिलाफ मजबूत होता है। एक सामान्य परीक्षण सांख्यिकीय की धारणा अगले बूटस्ट्रैप परीक्षण में मान्यताओं की एक मजबूत स्थिति है जिसकी मैं चर्चा करूंगा।
प्रतिशतक बूटस्ट्रैप
एक और तरीका है पर्सेंटाइल बूटस्ट्रैप जो कि मुझे लगता है कि हम में से ज्यादातर लोग बूटस्ट्रैप की बात करते हैं। यहां, पैरामीटर का बूटस्ट्रैप्ड वितरण वैकल्पिक परिकल्पना के तहत नमूने के एक अनुभवजन्य वितरण का अनुमान लगाता है। यह वितरण संभवतः गैर-सामान्य हो सकता है। एक 95% CI को आसानी से आनुभविक मात्राओं को ले कर गणना की जाती है। लेकिन एक महत्वपूर्ण धारणा यह है कि इस तरह का वितरण महत्वपूर्ण है । इसका मतलब यह है कि यदि अंतर्निहित पैरामीटर बदलता है, तो वितरण का आकार केवल एक स्थिरांक द्वारा स्थानांतरित किया जाता है, और स्केल जरूरी नहीं बदलता है। यह एक मजबूत धारणा है! यदि यह माना जाता है, तो आप "शून्य परिकल्पना के तहत सांख्यिकीय का वितरण" (DSNH या उत्पन्न कर सकते हैंF∗0) अनुमानों से बूटस्ट्रैप वितरण को घटाकर, फिर का उपयोग करके अपने अनुमान से DSNH का कितना प्रतिशत "अधिक चरम" है, की गणना2×min(F∗0(β^),1−F∗0(β^))
छात्र बूटस्ट्रैप
-values की गणना करने के लिए सबसे आसान बूटस्ट्रैप समाधान छात्र बूटस्ट्रैप का उपयोग करना है। प्रत्येक बूटस्ट्रैप पुनरावृत्ति के साथ, सांख्यिकीय और इसकी मानक त्रुटि की गणना करें और छात्र सांख्यिकीय को वापस करें। यह परिकल्पना के लिए एक बूटस्ट्रैप्ड छात्र वितरण देता है जिसका उपयोग सीआईएस और पी-मानों की गणना करने के लिए बहुत आसानी से किया जा सकता है। यह पूर्वाग्रह-सुधारित बूटस्ट्रैप के पीछे अंतर्ज्ञान को भी रेखांकित करता है। टी-डिस्ट्रीब्यूशन बहुत आसानी से नल के नीचे शिफ्ट हो जाता है क्योंकि आउटलाइंग परिणाम उनके संबंधित उच्च विचरण से कम हो जाते हैं।p
प्रोग्रामिंग उदाहरण
एक उदाहरण के रूप में, मैं city
बूटस्ट्रैप पैकेज में डेटा का उपयोग करूँगा । बूटस्ट्रैप विश्वास अंतराल की गणना इस कोड के साथ की जाती है:
ratio <- function(d, w) sum(d$x * w)/sum(d$u * w)
city.boot <- boot(city, ratio, R = 999, stype = "w", sim = "ordinary")
boot.ci(city.boot, conf = c(0.90, 0.95),
type = c("norm", "basic", "perc", "bca"))
और इस उत्पादन का उत्पादन:
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates
CALL :
boot.ci(boot.out = city.boot, conf = c(0.9, 0.95), type = c("norm",
"basic", "perc", "bca"))
Intervals :
Level Normal Basic
90% ( 1.111, 1.837 ) ( 1.030, 1.750 )
95% ( 1.042, 1.906 ) ( 0.895, 1.790 )
Level Percentile BCa
90% ( 1.291, 2.011 ) ( 1.292, 2.023 )
95% ( 1.251, 2.146 ) ( 1.255, 2.155 )
Calculations and Intervals on Original Scale
सामान्य बूटस्ट्रैप के लिए 95% CI की गणना करके प्राप्त की जाती है:
with(city.boot, 2*t0 - mean(t) + qnorm(c(0.025, 0.975)) %o% sqrt(var(t)[1,1]))
पी-मान इस प्रकार प्राप्त होता है:
> with(city.boot, pnorm(abs((2*t0 - mean(t) - 1) / sqrt(var(t)[1,1])), lower.tail=F)*2)
[1] 0.0315
जो इस बात से सहमत है कि 95% सामान्य CI में 1 का शून्य अनुपात मान शामिल नहीं है।
प्रतिशतक CI प्राप्त होता है (संबंधों के लिए तरीकों के कारण कुछ अंतरों के साथ):
quantile(city.boot$t, c(0.025, 0.975))
और प्रतिशतक बूटस्ट्रैप का p- मान है:
cvs <- quantile(city.boot$t0 - city.boot$t + 1, c(0.025, 0.975))
mean(city.boot$t > cvs[1] & city.boot$t < cvs[2])
0.035 की एपी देता है जो मूल्य से 1 के बहिष्कार के संदर्भ में विश्वास अंतराल से भी सहमत है। हम सामान्य रूप से इसका निरीक्षण नहीं कर सकते हैं, जबकि प्रतिशत सीआई की चौड़ाई सामान्य सीआई की तरह लगभग चौड़ी है और यह प्रतिशत सीआई अधिक शून्य से आगे है कि प्रतिशत सीआई को कम पी-मान प्रदान करना चाहिए। इसका कारण यह है कि प्रतिशतक विधि के लिए CI में अंतर्निहित नमूना वितरण का आकार गैर-सामान्य है।