कुछ कठिनाइयाँ हैं जो विश्वास अंतराल (CI) के सभी गैर-विषम बूटस्ट्रैपिंग अनुमानों के लिए सामान्य हैं, कुछ जो कि "अनुभवजन्य" ( boot.ci()
आर boot
पैकेज के फ़ंक्शन में "मूल" और Ref में दोनों के साथ एक समस्या है ) । और "प्रतिशतक" CI अनुमान (जैसा कि Ref। 2 में वर्णित है ), और कुछ जो कि प्रतिशतक CI के साथ बढ़ाए जा सकते हैं।
टीएल; डीआर : कुछ मामलों में पर्सेंटाइल बूटस्ट्रैप सीआई के अनुमान पर्याप्त रूप से काम कर सकते हैं, लेकिन अगर कुछ धारणाएं पकड़ में नहीं आती हैं, तो पर्सेंटाइल / बेसिक बूटस्ट्रैप के साथ पर्सेंटाइल सीआई सबसे खराब विकल्प हो सकता है। अन्य बूटस्ट्रैप CI का अनुमान बेहतर कवरेज के साथ अधिक विश्वसनीय हो सकता है। सभी समस्याग्रस्त हो सकते हैं। नैदानिक भूखंडों को देखते हुए, हमेशा की तरह, सॉफ़्टवेयर रूटीन के आउटपुट को स्वीकार करने से संभावित त्रुटियों से बचने में मदद करता है।
बूटस्ट्रैप सेटअप
आम तौर पर रेफ की शब्दावली और तर्कों के बाद । 1 , हमारे पास डेटा का एक नमूना है एक स्वतंत्र और समान रूप से वितरित यादृच्छिक चर संचयी वितरण फ़ंक्शन साझा करता है । डेटा सैंपल से निर्मित अनुभवजन्य वितरण फ़ंक्शन (EDF) । हम जनसंख्या के एक विशेषता में रुचि रखते हैं , जिसका अनुमान एक आँकड़ा जिसका नमूना में मूल्य । हमें पता है कि कैसे अच्छी तरह चाहते हैं का अनुमान है , उदाहरण के लिए, के वितरण ।y1,...,ynYiFF^θTtTθ(T−θ)
Nonparametric बूटस्ट्रैप EDF से नमूने का उपयोग करता है से नकल के नमूने के , लेने आकार के प्रत्येक नमूने से प्रतिस्थापन के साथ । बूटस्ट्रैप नमूनों से गणना के मानों को "*" के साथ निरूपित किया जाता है। उदाहरण के लिए, बूटस्ट्रैप सैंपल j पर आँकड़ों की गणना j मान प्रदान करता है ।F^FRnyiTT∗j
अनुभवजन्य / बुनियादी बनाम प्रतिशतक बूटस्ट्रैप CIs
अनुभवजन्य / आधारभूत बूटस्ट्रैप के वितरण का उपयोग करता है , बूटस्ट्रैप नमूनों के बीच से वर्णित जनसंख्या के भीतर के वितरण का अनुमान लगाने के लिए । इसका CI अनुमान इस प्रकार के वितरण पर आधारित है , जहाँ मूल नमूने में सांख्यिकीय का मूल्य है।(T∗−t)RF^(T−θ)F(T∗−t)t
यह दृष्टिकोण बूटस्ट्रैपिंग के मूलभूत सिद्धांत ( Ref। 3 ) पर आधारित है :
जनसंख्या नमूने के लिए है जैसा कि नमूना बूटस्ट्रैप नमूनों के लिए है।
इसके बजाय परसेंटाइल बूटस्ट्रैप की मात्रा का उपयोग करता है । के वितरण में तिरछा या पूर्वाग्रह होने पर ये अनुमान काफी भिन्न हो सकते हैं ।T∗j(T−θ)
यह कहें कि एक मनाया गया पूर्वाग्रह जैसे:
B
T¯∗=t+B,
जहाँ का मतलब । के लिए, कि की 5 वीं और 95 वीं प्रतिशतताएं और रूप में व्यक्त की , जहां नमूने पर माध्य होता है और प्रत्येक सकारात्मक और संभावित रूप से तिरछा करने की अनुमति देने के लिए अलग-अलग हैं। 5 वें और 95 वें CI प्रतिशत-आधारित अनुमानों को क्रमशः निम्न द्वारा दिया जाएगा:T¯∗T∗jT∗jT¯∗−δ1T¯∗+δ2T¯∗δ1,δ2
T¯∗−δ1=t+B−δ1;T¯∗+δ2=t+B+δ2.
अनुभवजन्य / बुनियादी बूटस्ट्रैप विधि द्वारा 5 वें और 95 वें प्रतिशतक सीआई अनुमान क्रमशः होंगे ( Ref। 1 , eq। 5.6, पृष्ठ 194)।
2t−(T¯∗+δ2)=t−B−δ2;2t−(T¯∗−δ1)=t−B+δ1.
तो प्रतिशत-आधारित CI दोनों को पूर्वाग्रह गलत हो जाता है और विश्वास की सीमा के संभावित असममित पदों के दिशा-निर्देशों को एक द्वैत-पक्षपाती केंद्र के आसपास फ्लिप करता है । ऐसे मामले में बूटस्ट्रैपिंग से प्रतिशताइल सीआई के वितरण का प्रतिनिधित्व नहीं करते हैं ।(T−θ)
इस व्यवहार को इस पृष्ठ पर अच्छी तरह से चित्रित किया गया है , ताकि सांख्यिकीय रूप से नकारात्मक पक्षपाती बूटस्ट्रैपिंग के लिए अनुभवजन्य / मूल विधि (जिसमें सीधे उपयुक्त पूर्वाग्रह सुधार शामिल है) के आधार पर मूल नमूना अनुमान 95% सीआई से नीचे है। प्रतिशत-पद्धति पर आधारित 95% CI, एक दोहरे नकारात्मक पक्षपाती केंद्र के चारों ओर व्यवस्थित है, वास्तव में मूल नमूने से नकारात्मक पक्षपाती बिंदु अनुमान से भी नीचे दोनों हैं !
क्या सेंटाइल बूटस्ट्रैप का इस्तेमाल कभी नहीं किया जाना चाहिए?
यह आपके दृष्टिकोण के आधार पर एक अतिरंजना या एक समझ हो सकती है। यदि आप न्यूनतम पूर्वाग्रह और तिरछा दस्तावेज कर सकते हैं, उदाहरण के लिए हिस्टोग्राम या घनत्व भूखंडों के साथ के वितरण की कल्पना करके , प्रतिशतक बूटस्ट्रैप अनिवार्य रूप से समान सीआई को अनुभवजन्य / मूल सीआई प्रदान करना चाहिए। ये शायद दोनों सामान्य सामान्य सन्निकटन से बेहतर हैं।(T∗−t)
हालांकि, न तो दृष्टिकोण, कवरेज में सटीकता प्रदान करता है जो अन्य बूटस्ट्रैप दृष्टिकोणों द्वारा प्रदान किया जा सकता है। शुरुआत के Efron ने प्रतिशताइल CI की संभावित सीमाओं को मान्यता दी, लेकिन कहा: "ज्यादातर हम उदाहरण के लिए खुद के लिए बोलने वाले उदाहरणों की सफलता के अलग-अलग अंशों को बताने के लिए संतुष्ट रहेंगे।" ( संदर्भ 2 , पेज 3)
बाद के काम, DiCiccio और Efron ( Ref। 4 ) द्वारा उदाहरण के लिए सारांशित , ऐसे तरीके विकसित किए जो "मानक अंतराल की सटीकता पर परिमाण के एक आदेश द्वारा सुधार" अनुभवजन्य / बुनियादी या प्रतिशत विधियों द्वारा प्रदान किए गए। इस प्रकार, कोई यह तर्क दे सकता है कि यदि आप अंतराल की सटीकता के बारे में परवाह नहीं करते हैं, तो न तो अनुभवजन्य / बुनियादी और न ही पर्सेंटाइल विधियों का उपयोग किया जाना चाहिए।
चरम मामलों में, उदाहरण के लिए, बिना परिवर्तन के सीधे एक असामान्य वितरण से नमूना लेना, कोई बूटस्ट्रैप सीआई अनुमान विश्वसनीय नहीं हो सकता है, जैसा कि फ्रैंक हार्ले ने नोट किया है ।
इन और अन्य बूटस्ट्रैप किए गए CI की विश्वसनीयता को क्या सीमित करता है?
कई मुद्दे बूट किए गए CI को अविश्वसनीय बना सकते हैं। कुछ सभी दृष्टिकोणों पर लागू होते हैं, दूसरों को अनुभवजन्य / बुनियादी या प्रतिशतक तरीकों के अलावा अन्य तरीकों से कम किया जा सकता है।
पहले, सामान्य, इस मुद्दे को कितनी अच्छी तरह अनुभवजन्य वितरण है जनसंख्या वितरण का प्रतिनिधित्व करता है । यदि ऐसा नहीं होता है, तो कोई बूटस्ट्रैपिंग विधि विश्वसनीय नहीं होगी। विशेष रूप से, वितरण के चरम मूल्यों के करीब कुछ भी निर्धारित करने के लिए बूटस्ट्रैपिंग अविश्वसनीय हो सकती है। इस मुद्दे पर इस साइट पर कहीं और चर्चा की जाती है, उदाहरण के लिए यहां और यहां । कुछ, असतत, किसी विशेष नमूने के लिए की पूंछ में उपलब्ध मान शायद एक निरंतर की पूंछ का प्रतिनिधित्व नहीं कर सकते हैं । एक चरम लेकिन चित्रण का मामला बूटस्ट्रैपिंग का उपयोग करने की कोशिश कर रहा है ताकि एक समान से एक यादृच्छिक नमूने के अधिकतम क्रम सांख्यिकीय का अनुमान लगाया जा सकेF^FF^FU[0,θ]वितरण, जैसा कि यहाँ अच्छी तरह से समझाया गया है । ध्यान दें कि 95% या 99% CI बूटस्ट्रैप्ड स्वयं वितरण की पूंछ पर हैं और इस तरह इस तरह की समस्या से पीड़ित हो सकते हैं, विशेष रूप से छोटे नमूना आकार के साथ।
दूसरे, वहाँ कोई आश्वासन नहीं है कि से किसी भी मात्रा का नमूना है से यह नमूना के रूप में ही वितरण होगा । फिर भी यह धारणा बूटस्ट्रैपिंग के मूल सिद्धांत को रेखांकित करती है। उस वांछनीय संपत्ति के साथ मात्रा को निर्णायक कहा जाता है । जैसा कि एडमो बताते हैं :F^F
इसका मतलब यह है कि यदि अंतर्निहित पैरामीटर बदलता है, तो वितरण का आकार केवल एक स्थिरांक द्वारा स्थानांतरित किया जाता है, और स्केल जरूरी नहीं बदलता है। यह एक मजबूत धारणा है!
उदाहरण के लिए, अगर वहाँ पूर्वाग्रह है इसे से कि नमूना जानना महत्वपूर्ण है के आसपास से नमूने के रूप में ही है के आसपास । और यह गैर-समरूप नमूने में एक विशेष समस्या है; रेफरी के रूप में । 1 इसे पेज 33 पर डालता है:FθF^t
गैर-समसामयिक समस्याओं में स्थिति अधिक जटिल है। यह अब संभावना नहीं है (लेकिन सख्ती से असंभव नहीं है) कि कोई भी मात्रा बिल्कुल सटीक हो सकती है।
तो सबसे अच्छा है कि आम तौर पर संभव है एक सन्निकटन है। हालाँकि, इस समस्या को अक्सर पर्याप्त रूप से संबोधित किया जा सकता है। यह अनुमान लगाना संभव है कि कोई नमूना मात्रा कितनी बारीकी से है, उदाहरण के लिए, कैंटी एट अल द्वारा सुझाई गई धुरी भूखंडों के साथ । ये प्रदर्शित कर सकते हैं कि बूटस्ट्रैप किए गए अनुमानों का वितरण साथ कैसे भिन्न होता , या कितनी अच्छी तरह से रूपांतरण एक मात्रा करता है जो कि महत्वपूर्ण है। बेहतर बूटस्ट्रैप किए गए CI के लिए तरीके ऐसे ट्रांसफ़ॉर्मेशन खोजने की कोशिश कर सकते हैं जैसे ट्रांसफ़ॉर्म स्केल में CI का अनुमान लगाने के लिए pivotal के करीब है, फिर वापस ओरिजिनल स्केल में बदल जाता है।(T∗−t)th(h(T∗)−h(t))h(h(T∗)−h(t))
boot.ci()
समारोह बूटस्ट्रैप studentized प्रदान करता है सीआईएस (जिसे "bootstrap- टी " द्वारा DiCiccio और एफ्रोन ) और सीआईएस (पूर्वाग्रह को सही और त्वरित, जहां तिरछा के साथ "त्वरण" डील) कर रहे हैं "दूसरे क्रम सही" में है कि बीच का अंतर वांछित और प्राप्त कवरेज (जैसे, 95% CI) के क्रम पर है , केवल अनुभवजन्य / बुनियादी और प्रतिशतक तरीकों के लिए , केवल प्रथम-क्रम सटीक ( का क्रम ) रेफ 1 , पीपी 212-3; रेफ 4 )। हालाँकि, इन विधियों को बूटस्ट्रैप किए गए नमूनों में से प्रत्येक के भीतर भिन्नताओं पर नज़र रखने की आवश्यकता होती है, न कि केवल के व्यक्तिगत मूल्य।BCaαn−1n−0.5T∗j उन सरल तरीकों द्वारा उपयोग किया जाता है।
चरम मामलों में, किसी को आत्मविश्वास अंतराल के पर्याप्त समायोजन प्रदान करने के लिए बूटस्ट्रैप्ड नमूनों के भीतर बूटस्ट्रैपिंग का सहारा लेना पड़ सकता है। यह "डबल बूटस्ट्रैप" रेफरी की धारा 5.6 में वर्णित है । 1 , उस पुस्तक में अन्य अध्यायों के साथ अपनी चरम कम्प्यूटेशनल मांगों को कम करने के तरीके सुझाते हैं।
डेविसन, एसी और हिंकले, डीवी बूटस्ट्रैप विधियाँ और उनके अनुप्रयोग, कैम्ब्रिज यूनिवर्सिटी प्रेस, 1997 ।
एफ्रॉन, बी। बूटस्ट्रैप के तरीके: जैकनेफ, एन का एक और रूप। सांख्यिकीविद। 7: 1-26, 1979 ।
फॉक्स, जे। एंड वीज़बर्ग, एस। बूटस्ट्रैपिंग रिग्रेशन मॉडल इन आर। एन अपेंडिक्स टू एन आर कम्पेनियन टू एप्लाइड रिग्रेशन, सेकंड एडिशन (सेज, 2011)। 10 अक्टूबर 2017 तक संशोधन ।
डिसिकियो, टीजे और एफ्रोन, बी। बूटस्ट्रैप आत्मविश्वास अंतराल। स्टेट। विज्ञान। 11: 189-228, 1996 ।
कैंटी, ए जे, डेविसन, एसी, हिंकले, डीवी, और वेंचुरा, वी। बूटस्ट्रैप डायग्नोस्टिक्स और उपचार। कर सकते हैं। जे स्टेट। 34: 5-27, 2006 ।