क्या यह सच है कि पर्सेंटाइल बूटस्ट्रैप का इस्तेमाल कभी नहीं किया जाना चाहिए?


31

एमआईटी ओपनकोर्सवेयर में 18.05 के लिए संभाव्यता और सांख्यिकी का परिचय, स्प्रिंग 2014 (वर्तमान में यहां उपलब्ध है ), यह बताता है:

बूटस्ट्रैप प्रतिशताइल विधि इसकी सादगी के कारण आकर्षक है। हालांकि इसके बारे में बूटस्ट्रैप वितरण पर निर्भर करता है एक के आधार पर विशेष नमूना का सही वितरण के लिए एक अच्छा सन्निकटन किया जा रहा है । राइस पर्सेंटाइल विधि के बारे में कहते हैं, "हालांकि विश्वास सीमाओं के साथ बूटस्ट्रैप नमूना वितरण के मात्राओं का यह प्रत्यक्ष समीकरण शुरू में आकर्षक लग सकता है, यह तर्क कुछ अस्पष्ट है।" [2] संक्षेप में, बूटस्ट्रैप माइल विधि का उपयोग न करें । इसके बजाय अनुभवजन्य बूटस्ट्रैप का उपयोग करें (हमने दोनों आशाओं में समझाया है कि आप प्रतिशतक बूटस्ट्रैप के लिए अनुभवजन्य बूटस्ट्रैप को भ्रमित नहीं करेंगे)।x¯x¯

[२] जॉन राइस, गणितीय सांख्यिकी और डेटा विश्लेषण , द्वितीय संस्करण, पी। 272

ऑनलाइन खोज करने के बाद, यह एकमात्र ऐसा उद्धरण है जो मैंने पाया है कि एकमुश्त कहा गया है कि प्रतिशतक बूटस्ट्रैप का उपयोग नहीं किया जाना चाहिए।

क्लार्क एट अल द्वारा टेक्स्ट प्रिंसिपल्स एंड थ्योरी फॉर डेटा माइनिंग एंड मशीन लर्निंग से पढ़कर मुझे जो याद आया । क्या बूटस्ट्रैपिंग का मुख्य औचित्य यह है कि तथ्य यह है कि जहाँ \ hat {F} _n अनुभवजन्य CDF है। (मुझे इससे आगे का विवरण याद नहीं है।)

1ni=1nF^n(x)pF(x)
F^n

क्या यह सच है कि प्रतिशतक बूटस्ट्रैप विधि का उपयोग नहीं किया जाना चाहिए? यदि ऐसा है, तो F लिए आवश्यक नहीं होने पर क्या विकल्प हैं (यानी, पैरामीट्रिक बूटस्ट्रैप करने के लिए पर्याप्त जानकारी उपलब्ध नहीं है)?


अद्यतन करें

क्योंकि स्पष्टीकरण का अनुरोध किया गया है, इन एमआईटी नोटों से "अनुभवजन्य बूटस्ट्रैप" निम्न प्रक्रिया को संदर्भित करता है: वे गणना करते हैं और के साथ की बूटस्ट्रैप अनुमान और के पूर्ण नमूना अनुमान , और जिसके परिणामस्वरूप अनुमान विश्वास अंतराल होगा ।δ1=(θ^θ^)α/2δ2=(θ^θ^)1α/2θ^θθ^θ[θ^δ2,θ^δ1]

संक्षेप में, मुख्य विचार यह है: अनुभवजन्य बूटस्ट्रैपिंग अनुमान अनुमान और वास्तविक पैरामीटर के बीच के अंतर के अनुपात में एक राशि का अनुमान लगाता है, अर्थात, , और निम्न के साथ आने के लिए इस अंतर का उपयोग करता है ऊपरी CI सीमा।θ^θ

"प्रतिशतक बूटस्ट्रैप" निम्नलिखित को संदर्भित करता है: आत्मविश्वास अंतराल के रूप में for । इस स्थिति में, हम ब्याज के पैरामीटर के अनुमानों की गणना करने के लिए बूटस्ट्रैपिंग का उपयोग करते हैं और विश्वास अंतराल के लिए इन अनुमानों का प्रतिशत लेते हैं।[θ^α/2,θ^1α/2]θ


2
मैंने आपके अपडेट को बहुत अधिक संपादित किया। कृपया जांच लें कि मेरा संपादन समझ में आता है। एफ्रॉन की किताब के आपके उद्धरण भ्रमित करने वाले थे क्योंकि एफ्रॉन जो वर्णन करता है वह आपके एमआईटी नोट्स "अनुभवजन्य बूटस्ट्रैप" के अनुरूप नहीं है। इसलिए मैंने केवल एमआईटी नोट्स का क्या वर्णन किया है। BTW, मैं "अनुभवजन्य बूटस्ट्रैप" के अपने विवरण में एक बात के बारे में उलझन में हूँ: पृष्ठ 6 के शीर्ष पर यह कहता है कि "चूंकि 90 वें प्रतिशत पर है ..." - मैं डॉन 'यह नहीं समझे। यह उदाहरण से स्पष्ट है कि CI का बाईं ओर 90 वाँ प्रतिशत, यानी आपका घटाकर दिया गया है । δ.1δ2
अमीबा का कहना है कि

2
@amoeba आपके संपादन सही हैं। मदद करने के लिए धन्यवाद। मुझे लगता है कि एमआईटी नोट्स के साथ कुछ मुद्दे हैं; प्रतिशतक बूटस्ट्रैप के साथ कठिनाइयों का उनका वर्णन बहुत स्पष्ट नहीं था और उनके खिलाफ उनका तर्क मुख्य रूप से प्राधिकरण के लिए अपील है। मैं प्रतिशतक बूटस्ट्रैप के खिलाफ उनके अंतिम संख्यात्मक उदाहरण को पुन: पेश नहीं कर सका। ऐसा मत सोचो कि उन्होंने कुछ विवरणों के माध्यम से काम किया है और साथ ही साथ हमने इस उपयोगी प्रश्न को संबोधित किया है, और इस प्रकार उनके पाठ में कुछ कमियां हो सकती हैं, जैसा कि आप बताते हैं।
EdM

उस एमआईटी नोट को देखते हुए, मैं यह नहीं देखता कि कैसे लेखकों को धारा ३ M "३ percent.४, ४२.४] की धारा ९" बूटस्ट्रैप प्रतिशताइल विधि (इस्तेमाल नहीं करनी चाहिए) में आत्मविश्वास अंतराल मिला। ऐसा लगता है कि वे जो नमूना उपयोग कर रहे हैं, वह धारा 6 में एक के समान नहीं है, जिससे वे तुलना कर रहे हैं। यदि हम the ∗ = x x - x के लिए नमूना लेते हैं, तो पृष्ठ ५ के नीचे रिपोर्ट करें और ४०.३ का नमूना मतलब वापस जोड़ें और CI लें, मुझे जो सीमाएँ मिलती हैं, वे [३ ,.९, ४१.९] हैं जिसकी चौड़ाई समान है 3 [38.7, 41.7] की धारा 6 में रिपोर्ट की गई सीमा के रूप में।
चकित

जवाबों:


21

कुछ कठिनाइयाँ हैं जो विश्वास अंतराल (CI) के सभी गैर-विषम बूटस्ट्रैपिंग अनुमानों के लिए सामान्य हैं, कुछ जो कि "अनुभवजन्य" ( boot.ci()आर bootपैकेज के फ़ंक्शन में "मूल" और Ref में दोनों के साथ एक समस्या है ) और "प्रतिशतक" CI अनुमान (जैसा कि Ref। 2 में वर्णित है ), और कुछ जो कि प्रतिशतक CI के साथ बढ़ाए जा सकते हैं।

टीएल; डीआर : कुछ मामलों में पर्सेंटाइल बूटस्ट्रैप सीआई के अनुमान पर्याप्त रूप से काम कर सकते हैं, लेकिन अगर कुछ धारणाएं पकड़ में नहीं आती हैं, तो पर्सेंटाइल / बेसिक बूटस्ट्रैप के साथ पर्सेंटाइल सीआई सबसे खराब विकल्प हो सकता है। अन्य बूटस्ट्रैप CI का अनुमान बेहतर कवरेज के साथ अधिक विश्वसनीय हो सकता है। सभी समस्याग्रस्त हो सकते हैं। नैदानिक ​​भूखंडों को देखते हुए, हमेशा की तरह, सॉफ़्टवेयर रूटीन के आउटपुट को स्वीकार करने से संभावित त्रुटियों से बचने में मदद करता है।

बूटस्ट्रैप सेटअप

आम तौर पर रेफ की शब्दावली और तर्कों के बाद 1 , हमारे पास डेटा का एक नमूना है एक स्वतंत्र और समान रूप से वितरित यादृच्छिक चर संचयी वितरण फ़ंक्शन साझा करता है । डेटा सैंपल से निर्मित अनुभवजन्य वितरण फ़ंक्शन (EDF) । हम जनसंख्या के एक विशेषता में रुचि रखते हैं , जिसका अनुमान एक आँकड़ा जिसका नमूना में मूल्य । हमें पता है कि कैसे अच्छी तरह चाहते हैं का अनुमान है , उदाहरण के लिए, के वितरण ।y1,...,ynYiFF^θTtTθ(Tθ)

Nonparametric बूटस्ट्रैप EDF से नमूने का उपयोग करता है से नकल के नमूने के , लेने आकार के प्रत्येक नमूने से प्रतिस्थापन के साथ । बूटस्ट्रैप नमूनों से गणना के मानों को "*" के साथ निरूपित किया जाता है। उदाहरण के लिए, बूटस्ट्रैप सैंपल j पर आँकड़ों की गणना j मान प्रदान करता है ।F^FRnyiTTj

अनुभवजन्य / बुनियादी बनाम प्रतिशतक बूटस्ट्रैप CIs

अनुभवजन्य / आधारभूत बूटस्ट्रैप के वितरण का उपयोग करता है , बूटस्ट्रैप नमूनों के बीच से वर्णित जनसंख्या के भीतर के वितरण का अनुमान लगाने के लिए । इसका CI अनुमान इस प्रकार के वितरण पर आधारित है , जहाँ मूल नमूने में सांख्यिकीय का मूल्य है।(Tt)RF^(Tθ)F(Tt)t

यह दृष्टिकोण बूटस्ट्रैपिंग के मूलभूत सिद्धांत ( Ref। 3 ) पर आधारित है :

जनसंख्या नमूने के लिए है जैसा कि नमूना बूटस्ट्रैप नमूनों के लिए है।

इसके बजाय परसेंटाइल बूटस्ट्रैप की मात्रा का उपयोग करता है । के वितरण में तिरछा या पूर्वाग्रह होने पर ये अनुमान काफी भिन्न हो सकते हैं ।Tj(Tθ)

यह कहें कि एक मनाया गया पूर्वाग्रह जैसे: B

T¯=t+B,

जहाँ का मतलब । के लिए, कि की 5 वीं और 95 वीं प्रतिशतताएं और रूप में व्यक्त की , जहां नमूने पर माध्य होता है और प्रत्येक सकारात्मक और संभावित रूप से तिरछा करने की अनुमति देने के लिए अलग-अलग हैं। 5 वें और 95 वें CI प्रतिशत-आधारित अनुमानों को क्रमशः निम्न द्वारा दिया जाएगा:T¯TjTjT¯δ1T¯+δ2T¯δ1,δ2

T¯δ1=t+Bδ1;T¯+δ2=t+B+δ2.

अनुभवजन्य / बुनियादी बूटस्ट्रैप विधि द्वारा 5 वें और 95 वें प्रतिशतक सीआई अनुमान क्रमशः होंगे ( Ref। 1 , eq। 5.6, पृष्ठ 194)।

2t(T¯+δ2)=tBδ2;2t(T¯δ1)=tB+δ1.

तो प्रतिशत-आधारित CI दोनों को पूर्वाग्रह गलत हो जाता है और विश्वास की सीमा के संभावित असममित पदों के दिशा-निर्देशों को एक द्वैत-पक्षपाती केंद्र के आसपास फ्लिप करता है । ऐसे मामले में बूटस्ट्रैपिंग से प्रतिशताइल सीआई के वितरण का प्रतिनिधित्व नहीं करते हैं ।(Tθ)

इस व्यवहार को इस पृष्ठ पर अच्छी तरह से चित्रित किया गया है , ताकि सांख्यिकीय रूप से नकारात्मक पक्षपाती बूटस्ट्रैपिंग के लिए अनुभवजन्य / मूल विधि (जिसमें सीधे उपयुक्त पूर्वाग्रह सुधार शामिल है) के आधार पर मूल नमूना अनुमान 95% सीआई से नीचे है। प्रतिशत-पद्धति पर आधारित 95% CI, एक दोहरे नकारात्मक पक्षपाती केंद्र के चारों ओर व्यवस्थित है, वास्तव में मूल नमूने से नकारात्मक पक्षपाती बिंदु अनुमान से भी नीचे दोनों हैं !

क्या सेंटाइल बूटस्ट्रैप का इस्तेमाल कभी नहीं किया जाना चाहिए?

यह आपके दृष्टिकोण के आधार पर एक अतिरंजना या एक समझ हो सकती है। यदि आप न्यूनतम पूर्वाग्रह और तिरछा दस्तावेज कर सकते हैं, उदाहरण के लिए हिस्टोग्राम या घनत्व भूखंडों के साथ के वितरण की कल्पना करके , प्रतिशतक बूटस्ट्रैप अनिवार्य रूप से समान सीआई को अनुभवजन्य / मूल सीआई प्रदान करना चाहिए। ये शायद दोनों सामान्य सामान्य सन्निकटन से बेहतर हैं।(Tt)

हालांकि, न तो दृष्टिकोण, कवरेज में सटीकता प्रदान करता है जो अन्य बूटस्ट्रैप दृष्टिकोणों द्वारा प्रदान किया जा सकता है। शुरुआत के Efron ने प्रतिशताइल CI की संभावित सीमाओं को मान्यता दी, लेकिन कहा: "ज्यादातर हम उदाहरण के लिए खुद के लिए बोलने वाले उदाहरणों की सफलता के अलग-अलग अंशों को बताने के लिए संतुष्ट रहेंगे।" ( संदर्भ 2 , पेज 3)

बाद के काम, DiCiccio और Efron ( Ref। 4 ) द्वारा उदाहरण के लिए सारांशित , ऐसे तरीके विकसित किए जो "मानक अंतराल की सटीकता पर परिमाण के एक आदेश द्वारा सुधार" अनुभवजन्य / बुनियादी या प्रतिशत विधियों द्वारा प्रदान किए गए। इस प्रकार, कोई यह तर्क दे सकता है कि यदि आप अंतराल की सटीकता के बारे में परवाह नहीं करते हैं, तो न तो अनुभवजन्य / बुनियादी और न ही पर्सेंटाइल विधियों का उपयोग किया जाना चाहिए।

चरम मामलों में, उदाहरण के लिए, बिना परिवर्तन के सीधे एक असामान्य वितरण से नमूना लेना, कोई बूटस्ट्रैप सीआई अनुमान विश्वसनीय नहीं हो सकता है, जैसा कि फ्रैंक हार्ले ने नोट किया है

इन और अन्य बूटस्ट्रैप किए गए CI की विश्वसनीयता को क्या सीमित करता है?

कई मुद्दे बूट किए गए CI को अविश्वसनीय बना सकते हैं। कुछ सभी दृष्टिकोणों पर लागू होते हैं, दूसरों को अनुभवजन्य / बुनियादी या प्रतिशतक तरीकों के अलावा अन्य तरीकों से कम किया जा सकता है।

पहले, सामान्य, इस मुद्दे को कितनी अच्छी तरह अनुभवजन्य वितरण है जनसंख्या वितरण का प्रतिनिधित्व करता है । यदि ऐसा नहीं होता है, तो कोई बूटस्ट्रैपिंग विधि विश्वसनीय नहीं होगी। विशेष रूप से, वितरण के चरम मूल्यों के करीब कुछ भी निर्धारित करने के लिए बूटस्ट्रैपिंग अविश्वसनीय हो सकती है। इस मुद्दे पर इस साइट पर कहीं और चर्चा की जाती है, उदाहरण के लिए यहां और यहां । कुछ, असतत, किसी विशेष नमूने के लिए की पूंछ में उपलब्ध मान शायद एक निरंतर की पूंछ का प्रतिनिधित्व नहीं कर सकते हैं । एक चरम लेकिन चित्रण का मामला बूटस्ट्रैपिंग का उपयोग करने की कोशिश कर रहा है ताकि एक समान से एक यादृच्छिक नमूने के अधिकतम क्रम सांख्यिकीय का अनुमान लगाया जा सकेF^FF^FU[0,θ]वितरण, जैसा कि यहाँ अच्छी तरह से समझाया गया है । ध्यान दें कि 95% या 99% CI बूटस्ट्रैप्ड स्वयं वितरण की पूंछ पर हैं और इस तरह इस तरह की समस्या से पीड़ित हो सकते हैं, विशेष रूप से छोटे नमूना आकार के साथ।

दूसरे, वहाँ कोई आश्वासन नहीं है कि से किसी भी मात्रा का नमूना है से यह नमूना के रूप में ही वितरण होगा । फिर भी यह धारणा बूटस्ट्रैपिंग के मूल सिद्धांत को रेखांकित करती है। उस वांछनीय संपत्ति के साथ मात्रा को निर्णायक कहा जाता है । जैसा कि एडमो बताते हैं :F^F

इसका मतलब यह है कि यदि अंतर्निहित पैरामीटर बदलता है, तो वितरण का आकार केवल एक स्थिरांक द्वारा स्थानांतरित किया जाता है, और स्केल जरूरी नहीं बदलता है। यह एक मजबूत धारणा है!

उदाहरण के लिए, अगर वहाँ पूर्वाग्रह है इसे से कि नमूना जानना महत्वपूर्ण है के आसपास से नमूने के रूप में ही है के आसपास । और यह गैर-समरूप नमूने में एक विशेष समस्या है; रेफरी के रूप में 1 इसे पेज 33 पर डालता है:FθF^t

गैर-समसामयिक समस्याओं में स्थिति अधिक जटिल है। यह अब संभावना नहीं है (लेकिन सख्ती से असंभव नहीं है) कि कोई भी मात्रा बिल्कुल सटीक हो सकती है।

तो सबसे अच्छा है कि आम तौर पर संभव है एक सन्निकटन है। हालाँकि, इस समस्या को अक्सर पर्याप्त रूप से संबोधित किया जा सकता है। यह अनुमान लगाना संभव है कि कोई नमूना मात्रा कितनी बारीकी से है, उदाहरण के लिए, कैंटी एट अल द्वारा सुझाई गई धुरी भूखंडों के साथ । ये प्रदर्शित कर सकते हैं कि बूटस्ट्रैप किए गए अनुमानों का वितरण साथ कैसे भिन्न होता , या कितनी अच्छी तरह से रूपांतरण एक मात्रा करता है जो कि महत्वपूर्ण है। बेहतर बूटस्ट्रैप किए गए CI के लिए तरीके ऐसे ट्रांसफ़ॉर्मेशन खोजने की कोशिश कर सकते हैं जैसे ट्रांसफ़ॉर्म स्केल में CI का अनुमान लगाने के लिए pivotal के करीब है, फिर वापस ओरिजिनल स्केल में बदल जाता है।(Tt)th(h(T)h(t))h(h(T)h(t))

boot.ci()समारोह बूटस्ट्रैप studentized प्रदान करता है सीआईएस (जिसे "bootstrap- टी " द्वारा DiCiccio और एफ्रोन ) और सीआईएस (पूर्वाग्रह को सही और त्वरित, जहां तिरछा के साथ "त्वरण" डील) कर रहे हैं "दूसरे क्रम सही" में है कि बीच का अंतर वांछित और प्राप्त कवरेज (जैसे, 95% CI) के क्रम पर है , केवल अनुभवजन्य / बुनियादी और प्रतिशतक तरीकों के लिए , केवल प्रथम-क्रम सटीक ( का क्रम ) रेफ 1 , पीपी 212-3; रेफ 4 )। हालाँकि, इन विधियों को बूटस्ट्रैप किए गए नमूनों में से प्रत्येक के भीतर भिन्नताओं पर नज़र रखने की आवश्यकता होती है, न कि केवल के व्यक्तिगत मूल्य।BCaαn1n0.5Tj उन सरल तरीकों द्वारा उपयोग किया जाता है।

चरम मामलों में, किसी को आत्मविश्वास अंतराल के पर्याप्त समायोजन प्रदान करने के लिए बूटस्ट्रैप्ड नमूनों के भीतर बूटस्ट्रैपिंग का सहारा लेना पड़ सकता है। यह "डबल बूटस्ट्रैप" रेफरी की धारा 5.6 में वर्णित है 1 , उस पुस्तक में अन्य अध्यायों के साथ अपनी चरम कम्प्यूटेशनल मांगों को कम करने के तरीके सुझाते हैं।


  1. डेविसन, एसी और हिंकले, डीवी बूटस्ट्रैप विधियाँ और उनके अनुप्रयोग, कैम्ब्रिज यूनिवर्सिटी प्रेस, 1997

  2. एफ्रॉन, बी। बूटस्ट्रैप के तरीके: जैकनेफ, एन का एक और रूप। सांख्यिकीविद। 7: 1-26, 1979

  3. फॉक्स, जे। एंड वीज़बर्ग, एस। बूटस्ट्रैपिंग रिग्रेशन मॉडल इन आर। एन अपेंडिक्स टू एन आर कम्पेनियन टू एप्लाइड रिग्रेशन, सेकंड एडिशन (सेज, 2011)। 10 अक्टूबर 2017 तक संशोधन

  4. डिसिकियो, टीजे और एफ्रोन, बी। बूटस्ट्रैप आत्मविश्वास अंतराल। स्टेट। विज्ञान। 11: 189-228, 1996

  5. कैंटी, ए जे, डेविसन, एसी, हिंकले, डीवी, और वेंचुरा, वी। बूटस्ट्रैप डायग्नोस्टिक्स और उपचार। कर सकते हैं। जे स्टेट। 34: 5-27, 2006


1
मुझे वास्तव में समझ में नहीं आता है कि आप क्यों कहते हैं कि "अनुभवजन्य बूटस्ट्रैप" जनसंख्या वितरण से विचलन के लिए "बहुत कम संवेदनशील" होगा। प्रतिशतक बूटस्ट्रैप नहीं है और यह "अनुभवजन्य बूटस्ट्रैप" बूटस्ट्रैप्ड वितरण के समान मात्राओं का उपयोग कर रहा है? मुझे लगा कि अंतर केवल इतना है कि यदि बूटस्ट्रैप वितरण नमूना माध्य के आसपास असममित है, तो इन दो दृष्टिकोणों के अंतराल को फ़्लिप किया जाएगा। जैसे यहाँ वर्णित है: en.wikipedia.org/wiki/… ("मूल" बनाम "प्रतिशतक")।
अमीबा का कहना है कि मोनिका

1
@amoeba वे भिन्न होते हैं कि वे बूटस्ट्रैप अनुमानों में पूर्वाग्रह को कैसे संभालते हैं, न कि केवल अंतराल को फ़्लिप करने में। इस उत्तर को वितरणों की पूंछ से संबंधित मुद्दों से आनुभविक बनाम प्रतिशतक बूटस्ट्रैपिंग के मुद्दों को अलग करने के लिए और अधिक काम करने की आवश्यकता है, जिसे मैंने कुछ हद तक यहां स्वीकार किया है और जो मुझे कुछ दिनों में स्पष्ट करने की उम्मीद है।
EdM

1
मैं इस उत्तर को आगे नहीं बढ़ाता क्योंकि प्रदान किए गए संदर्भों के आधार पर और (बहुत ही उचित) तर्क प्रस्तुत किया गया: " परसेंटाइल बूटस्ट्रैप का कभी भी उपयोग नहीं किया जाना चाहिए " बस एक अतिरंजना है, न कि "थोड़ा सा"। हां, यदि हम कर सकते हैं, तो हमें पूर्वाग्रह-सुधारित बूटस्ट्रैप पद्धति के किसी न किसी रूप का उपयोग करना चाहिए, लेकिन नहीं, बेहतर उपयोग प्रतिशतक बूटस्ट्रैप का उपयोग करने के लिए कुछ हद तक अक्षम सीआई अनुमान लगाने के बजाय माइंडलेस 2 सी मतलब के आसपास छड़ी करें और सोचें कि हमने अमेरिका की खोज की। (मैं इस बात से काफी हद तक सहमत हूं कि उत्तर का मुख्य निकाय क्या कहता है, बस आखिरी पैराग्राफ नहीं है क्योंकि मुझे लगता है कि यह गलत व्याख्या के लिए दरवाजा खुला छोड़ देता है।)
usεr11852

1
टिप्पणियों के जवाब में काफी हद तक पुनर्गठित और दुरुस्त।
EdM

1
@ आपने जो लिखा है, वह उस फॉर्म के बराबर है जो मैंने अनुभवजन्य / बुनियादी बूटस्ट्रैप के लिए प्रदान किया है। ध्यान दें कि आपका is , जहां बूटस्ट्रैप नमूनों के बीच ब्याज का ऊपरी प्रतिशत है। तो । मैंने आपके लिए उपयोग किया और को बूटस्ट्रैप माध्य प्लस ऑफसेट । Uθ^Uθ^θ^Uθ^U=θ^(θ^Uθ^)=2θ^θ^Utθ^θ^UT¯δ2
एड्म

8

एमआईटी / राइस और एफ्रोन की पुस्तक के बीच विभिन्न शब्दावली पर कुछ टिप्पणियां

मुझे लगता है कि एडिट का उत्तर एमआईटी व्याख्यान नोट्स के संबंध में ओपी मूल प्रश्न का उत्तर देने में एक शानदार काम करता है। हालांकि, ओपी ने Efrom (2016) से कंप्यूटर एज स्टैटिस्टिकल इन्वेंशन की पुस्तक भी उद्धृत की है, जिसमें थोड़ी भिन्न परिभाषाओं का उपयोग किया गया है जिससे भ्रम पैदा हो सकता है।


अध्याय 11 - छात्र स्कोर नमूना सहसंबंध उदाहरण

यह उदाहरण एक नमूने का उपयोग करता है जिसके लिए ब्याज का पैरामीटर सहसंबंध है। नमूने में इसे रूप में देखा जाता है । Efron फिर छात्र स्कोर नमूना सहसंबंध के लिए गैर पैरामीट्रिक बूटस्ट्रैप प्रतिकृति करता है (परिणाम 186 पृष्ठ का हिस्टोग्राम)θ^=0.498B=2000θ^

यहां छवि विवरण दर्ज करें

मानक अंतराल बूटस्ट्रैप

वह फिर निम्न मानक अंतराल बूटस्ट्रैप को परिभाषित करता है :

θ^±1.96se^

95% कवरेज के लिए जहां को बूटस्ट्रैप मानक त्रुटि के रूप में लिया जाता है: , जिसे बूटस्ट्रैप मानों का अनुभवजन्य मानक विचलन भी कहा जाता है।se^seboot

बूटस्ट्रैप मानों का अनुभवजन्य मानक विचलन:

मूल नमूना को और बूटस्ट्रैप नमूना be । प्रत्येक बूटस्ट्रैप नमूना ब्याज की आँकड़ा का बूटस्ट्रैप प्रतिकृति प्रदान करता है : x=(x1,x2,...,xn)x=(x1,x2,...,xn)b

θ^b=s(xb)  for b=1,2,...,B

लिए मानक त्रुटि का परिणामी बूटस्ट्रैप अनुमान हैθ^

se^boot=[b=1B(θ^bθ^)2/(B1)]1/2
θ^=b=1Bθ^bB

यह परिभाषा एड्म के उत्तर में प्रयुक्त एक से भिन्न है:

अनुभवजन्य / आधारभूत बूटस्ट्रैप, के वितरण का उपयोग करता है , बूटस्ट्रैप नमूनों के बीच वर्णित जनसंख्या के भीतर के वितरण का अनुमान लगाने के लिए ।(Tt)RF^(Tθ)F


प्रतिशतक बूटस्ट्रैप

यहाँ, दोनों परिभाषाएँ संरेखित हैं। एफ्रोन पृष्ठ 186 से:

प्रतिशतक विधि बूटस्ट्रैप वितरण के आकार का उपयोग करता है मानक के अंतराल से बेहतर बनाते हैं। उत्पन्न होने के बाद प्रतिकृति तो हम उनके वितरण के प्रतिशत का उपयोग प्रतिशतता विश्वास सीमा को परिभाषित करने के लिए करते हैं ।Bθ^1,θ^2,...,θ^B

इस उदाहरण में, ये क्रमशः 0.118 और 0.758 हैं।

उद्धरण संपादित करें:

प्रतिशतक बूटस्ट्रैप इसके बजाय CI को निर्धारित करने के लिए values मानों का उपयोग करता है ।Tj


एफ्रॉन द्वारा परिभाषित मानक और प्रतिशतक विधि की तुलना करना

अपनी स्वयं की परिभाषाओं के आधार पर, एफ्रॉन यह तर्क देने के लिए काफी लंबाई में जाता है कि प्रतिशतक विधि एक सुधार है। इस उदाहरण के लिए परिणामी CI हैं:

यहां छवि विवरण दर्ज करें


निष्कर्ष

मैं तर्क दूंगा कि ओपी का मूल प्रश्न एडएम द्वारा प्रदान की गई परिभाषाओं से जुड़ा हुआ है। ओपी द्वारा की गई परिभाषाओं को स्पष्ट करने के लिए किए गए संपादन, एफ्रॉन की पुस्तक से जुड़े हैं और एम्पैरिकल बनाम स्टैंडर्ड बूटस्ट्रैप सीआई के लिए बिल्कुल समान नहीं हैं।

टिप्पणियों का स्वागत है


2
शब्दावली स्पष्टीकरण के लिए धन्यवाद। पहली नज़र में, "मानक अंतराल बूटस्ट्रैप" CI द्वारा उत्पादित "सामान्य" CI के समान प्रतीत होता है boot.ci(), जिसमें वे त्रुटियों के लिए एक सामान्य सन्निकटन पर आधारित होते हैं और के नमूना अनुमान के बारे में सममित होने के लिए मजबूर होते हैं । यह "अनुभवजन्य / बुनियादी" CI से अलग है, जो "प्रतिशतक" CI को विषमता की अनुमति देता है। मैं पूर्वाग्रह से निपटने में "अनुभवजन्य / बुनियादी" सीआई और "प्रतिशत" सीआई के बीच बड़े अंतर पर आश्चर्यचकित था; जब तक मैंने इस प्रश्न का उत्तर देने की कोशिश नहीं की, मैंने इसके बारे में ज्यादा नहीं सोचा था। θ
एड्म जूल 20'18

बस के लिए मैनुअल की जाँच की boot.ci(): "सामान्य अंतराल भी बूटस्ट्रैप पूर्वाग्रह सुधार का उपयोग करते हैं।" ऐसा लगता है कि एफ्रॉन द्वारा वर्णित "मानक अंतराल बूटस्ट्रैप" से अंतर है।
एड्म जूल 20'18

पर्याप्त रूप से उचित - पुस्तक में वर्णित सामान्य अंतराल आधार मामला है जिसमें से वह बेहतर और अधिक सटीक दृष्टिकोणों (बीसी और बीसीए के सभी तरीके) का निर्माण करता है, इसलिए यह समझ में आता है कि इसे लागू नहीं किया गया है
जेवियर

@ ईडीएम और जेवियर: क्या कंप्यूटर आयु सांख्यिकीय अनुमान "अनुभवजन्य / बुनियादी" सीआई का वर्णन करता है? यदि हां, तो पुस्तक उन्हें कैसे बुलाती है? यदि नहीं, तो यह अजीब नहीं है?
अमीबा का कहना है कि मोनिका

1
@amoeba नहीं कि मैं पहली नज़र में देख सकता हूँ। पुस्तक निजी उपयोग के लिए एक पीडीएफ के रूप में उपलब्ध है । जैसा कि मैं अपने उत्तर में तर्क देता हूं और जैसा कि पुस्तक में उल्लेख किया गया है, कवरेज के संबंध में "अनुभवजन्य / बुनियादी" और "प्रतिशत" सीआई से बेहतर विकल्प हैं, इसलिए मैं देख सकता हूं कि किसी को क्यों छोड़ा जा सकता है: पूर्वाग्रह के बिना और सममित सीआई के साथ। उनके बीच बहुत अंतर नहीं है। मैं निश्चित रूप से बूटस्ट्रैप के आविष्कारक को उसकी प्रारंभिक सीआई पद्धति पर जोर देने के लिए दोष नहीं दे सकता, क्योंकि यह "अनुभवजन्य / बुनियादी" की तुलना में बीसी और बीसीए के लिए सीधे नेतृत्व करता है।
ईडीएम

5

मैं आपके दिशानिर्देश का पालन कर रहा हूं: "विश्वसनीय और / या आधिकारिक स्रोतों से उत्तर ड्राइंग की तलाश में।"

बूटस्ट्रैप का आविष्कार ब्रैड एफ्रॉन ने किया था। मुझे लगता है कि यह कहना उचित है कि वह एक प्रतिष्ठित सांख्यिकीविद् हैं। यह एक तथ्य है कि वह स्टैनफोर्ड में प्रोफेसर हैं। मुझे लगता है कि इससे उनकी राय विश्वसनीय और आधिकारिक हो जाती है।

मेरा मानना ​​है कि एफ्रॉन और हस्ती द्वारा कंप्यूटर आयु सांख्यिकीय निष्कर्ष उनकी नवीनतम पुस्तक है और इसलिए उन्हें अपने वर्तमान विचारों को प्रतिबिंबित करना चाहिए। पी से। 204 (11.7, नोट और विवरण),

बूटस्ट्रैप विश्वास अंतराल न तो सटीक है और न ही इष्टतम है, लेकिन इसके बजाय सटीक सटीकता के साथ संयुक्त व्यापक प्रयोज्यता के लिए लक्ष्य है।

यदि आप अध्याय 11, "बूटस्ट्रैप कॉन्फिडेंस इंटरवल" पढ़ते हैं, तो वह बूटस्ट्रैप विश्वास अंतराल बनाने के 4 तरीके देता है। इन विधियों में से दूसरा है (11.2) प्रतिशत पद्धति। तीसरा और चौथा तरीका प्रतिशतक पद्धति पर भिन्न होता है, जो कि विश्वास अंतराल में पूर्वाग्रह के रूप में वर्णित एफ्रॉन और हस्ती के लिए सही करने का प्रयास करता है और जिसके लिए वे एक सैद्धांतिक स्पष्टीकरण देते हैं।

एक तरफ के रूप में, मैं तय नहीं कर सकता कि क्या एमआईटी के लोग अनुभवजन्य बूटस्ट्रैप सीआई और प्रतिशतक सीआई के बीच कोई अंतर है। मैं एक मस्तिष्क गोज़ हो सकता है, लेकिन मैं अनुभवजन्य विधि को एक निश्चित मात्रा से घटाकर प्रतिशत पद्धति के रूप में देखता हूं। वह कुछ भी नहीं बदलना चाहिए। मैं शायद गलत पढ़ रहा हूं, लेकिन अगर मैं किसी को समझा सकता हूं कि मैं उनके पाठ को कैसे समझ रहा हूं तो मैं वास्तव में आभारी रहूंगा।

भले ही, प्रमुख प्राधिकरण के पास प्रतिशत सीआई के पास कोई मुद्दा नहीं है। मुझे यह भी लगता है कि उनकी टिप्पणी बूटस्ट्रैप सीआई की आलोचनाओं का जवाब देती है जो कुछ लोगों द्वारा उल्लिखित हैं।

मुख्य जोड़ें

सबसे पहले, एमआईटी अध्याय और टिप्पणियों को पचाने के लिए समय लेने के बाद, सबसे महत्वपूर्ण बात यह ध्यान देने वाली है कि एमआईटी अनुभवजन्य बूटस्ट्रैप और पर्सेंटाइल बूटस्ट्रैप को अलग-अलग कहती है - अनुभवजन्य बूटस्ट्रैप और पर्सेंटाइल बूटस्ट्रैप इस बात में भिन्न होंगे कि वे अनुभवजन्य को क्या कहते हैं। बूटस्ट्रैप अंतराल जबकि प्रतिशतक बूटस्ट्रैप में विश्वास अंतराल । मैं आगे तर्क दूंगा कि एफ्रॉन-हस्ती के अनुसार पर्सेंटाइल बूटस्ट्रैप अधिक विहित है। MIT जिसे अनुभवजन्य बूटस्ट्रैप कहता है, वह है कुंजी को के वितरण में देखना । लेकिन क्यों , क्यों नहीं[x¯δ.1,x¯δ.9][x¯δ.9,x¯δ.1]
δ=x¯μx¯μμx¯ । जैसा उचित हो। इसके अलावा, दूसरे सेट के लिए डेल्टा डिफाइंड पर्सेंटाइल बूटस्ट्रैप है! एफ्रॉन प्रतिशतक का उपयोग करता है और मुझे लगता है कि वास्तविक साधनों का वितरण सबसे मौलिक होना चाहिए। मैं यह जोड़ना चाहता हूं कि एफ्रॉन और हस्ती और 1979 के पेपर के अलावा एफ्रॉन ने एक अन्य उत्तर में उल्लेख किया है, एफ्रॉन ने 1982 में बूटस्ट्रैप पर एक किताब लिखी थी। सभी 3 स्रोतों में पर्सेंटाइल बूटस्ट्रैप का उल्लेख है, लेकिन मुझे इसका कोई उल्लेख नहीं मिला एमआईटी के लोग अनुभवजन्य बूटस्ट्रैप कहते हैं। इसके अलावा, मुझे पूरा यकीन है कि वे प्रतिशतक बूटस्ट्रैप की गलत गणना करते हैं। नीचे एक आर नोटबुक है जो मैंने लिखा है।

MIT सन्दर्भ पर टिप्पणी सबसे पहले R में MIT डेटा प्राप्त करते हैं। मैंने उनके बूटस्ट्रैप नमूनों का एक सरल कट और पेस्ट कार्य किया और इसे boot.txt पर सहेज दिया।

ओरिजिन.बूट = सी (30, 37, 36, 43, 42, 43, 43, 46, 41, 42) को छिपाएं बूट = read.table (फ़ाइल = "boot.txt") का अर्थ है = as.numeric (lapply (बूट) , माध्य)) # lapply सूची बनाता है, न कि वैक्टर। मैं इसे डेटा फ्रेम के लिए हमेशा उपयोग करता हूं। mu = mean (Origin.boot) del = सॉर्ट (मतलब - mu) # अंतर mu का अर्थ डेल और आगे है

छिपाना म्यू - सॉर्ट (डेल) [3] म्यू - सॉर्ट (डेल) [18] इसलिए हमें वही उत्तर मिलता है जो वे करते हैं। विशेष रूप से मेरे पास 10 वीं और 90 वीं प्रतिशत है। मैं बताना चाहता हूं कि १० वीं से ९ ० प्रतिशत तक की सीमा ३ है। यह वही है जो MIT के पास है।

मेरे साधन क्या हैं?

Hide का मतलब है सॉर्ट (मतलब) मुझे अलग-अलग साधन मिल रहे हैं। महत्वपूर्ण बिंदु- मेरा 10 वां और 90 वां मतलब 38.9 और 41.9 है। यही मैं उम्मीद करूंगा। वे अलग हैं क्योंकि मैं 40.3 से दूरी पर विचार कर रहा हूं, इसलिए मैं घटाव क्रम को उलट रहा हूं। ध्यान दें कि 40.3-38.9 = 1.4 (और 40.3 - 1.6 = 38.7)। इसलिए वे प्रतिशतक बूटस्ट्रैप को क्या कहते हैं, एक वितरण देता है जो वास्तविक साधनों पर निर्भर करता है जो हमें मिलता है और अंतर नहीं।

मुख्य बिंदु अनुभवजन्य बूटस्ट्रैप और पर्सेंटाइल बूटस्ट्रैप इस बात में भिन्न होगा कि जिसे वे अनुभवजन्य बूटस्ट्रैप कहते हैं, वह अंतराल होगा [x ∗ ical ical.1, x ∗ ical ical δ.9] [x ical ical ical δ.1, x x percent − δ.9] जबकि प्रतिशतक बूटस्ट्रैप में आत्मविश्वास अंतराल होगा [x − ¯ ¯ ¯.9, x ∗ ¯ ¯ ].1] [x ∗ ¯ ¯ δ.9, x ∗ ¯ ¯ δ.1 ]। आमतौर पर वे अलग नहीं होना चाहिए। मेरे पास मेरे विचार हैं जिनके अनुसार मैं पसंद करूंगा, लेकिन मैं ओपी के अनुरोधों का निश्चित स्रोत नहीं हूं। सोचा प्रयोग- नमूना आकार बढ़ने पर दोनों को मिलाना चाहिए। ध्यान दें कि आकार के 210210 संभावित नमूने हैं। चलो पागल नहीं होते हैं, लेकिन क्या होगा अगर हम 2000 नमूने लेते हैं- आमतौर पर पर्याप्त माना जाने वाला आकार।

के लिए (i (c: 1: 2000)) {boot.2k [, i] = नमूना (मूल 10, 10, प्रतिस्थापित) के लिए set.seed (1234) # प्रतिलिपि प्रस्तुत करने योग्य बूट.2k = मैट्रिक्स (NA, 10,2000) छिपाएँ = T)} mu2k = सॉर्ट (लागू करें (boot.2k, 2, mean)) चलो mu2k देखें

सारांश (mu2k) माध्य (m22k) -mu2k [200] माध्य (mu2k) - mu2k [1801] और वास्तविक मानों को छिपाएं

छिपाएँ mu2k [200] mu2k [1801] तो अब जो MIT अनुभवजन्य बूटस्ट्रैप को बुलाता है वह [, 40.3 -1.87,40.3 +1.64] या [38.43,41.94] का 80% विश्वास अंतराल देता है और उनका खराब प्रतिशत वितरण [38.5] देता है। 42]। यह निश्चित रूप से समझ में आता है क्योंकि बड़ी संख्या के कानून इस मामले में कहेंगे कि वितरण को एक सामान्य वितरण में परिवर्तित किया जाना चाहिए। संयोग से, यह एफ्रॉन और हस्ती में चर्चा की गई है। बूटस्ट्रैप अंतराल की गणना के लिए वे जो पहली विधि देते हैं वह म्यू = / - 1.96 एसडी का उपयोग करना है। जैसा कि वे बताते हैं, बड़े नमूने के आकार के लिए यह काम करेगा। वे फिर एक उदाहरण देते हैं जिसके लिए n = 2000 डेटा का लगभग सामान्य वितरण प्राप्त करने के लिए पर्याप्त बड़ा नहीं है।

निष्कर्ष सबसे पहले, मैं उस सिद्धांत का उल्लेख करना चाहता हूं जिसका उपयोग मैं नामकरण के प्रश्नों को तय करने के लिए करता हूं। "यह मेरी पार्टी है अगर मैं चाहता हूं तो मैं रो सकता हूं।" मूल रूप से पेटुला क्लार्क द्वारा अभिनीत, मुझे लगता है कि यह नामकरण संरचनाओं को भी लागू करता है। इसलिए एमआईटी के प्रति गंभीर निष्ठा के साथ, मुझे लगता है कि ब्रैडले एफ्रॉन विभिन्न बूटस्ट्रैपिंग विधियों का नाम लेना चाहते हैं। वह क्या करता है ? मैं 'अनुभवजन्य बूटस्ट्रैप' के एफ्रॉन में कोई उल्लेख नहीं पा सकता हूं, बस प्रतिशतक। इसलिए मैं चावल, एमआईटी, एट अल से विनम्रतापूर्वक असहमत हूं। मैं यह भी कहना चाहूंगा कि बड़ी संख्या के कानून के अनुसार, जैसा कि एमआईटी व्याख्यान में इस्तेमाल किया जाता है, अनुभवजन्य और प्रतिशतक को एक ही संख्या में परिवर्तित करना चाहिए। मेरे स्वाद के लिए, प्रतिशतक बूटस्ट्रैप सहज, न्यायसंगत है, और बूटस्ट्रैप के आविष्कारक के मन में क्या था। मुझे लगता है कि मैं यह करने के लिए समय ले लिया सिर्फ अपने स्वयं के संपादन के लिए, और कुछ नहीं। विशेष रूप से, मैंने एफ्रॉन नहीं लिखा, जो शायद ओपी को करना चाहिए। मैं सबसे सही खड़े होने के लिए तैयार हूं।


3
"मुझे लगता है कि यह कहना उचित है कि वह एक प्रतिष्ठित सांख्यिकीविद् हैं।" - हाँ मैं कहूँगा कि उचित है!
जेवियर बॉरेट सिसिलोट

मुझे लगता है कि ओपी "अनुभवजन्य बढ़ावा" को क्या कहता है, विकिपीडिया "बुनियादी बूटस्ट्रैप" को यहाँ en.wikipedia.org/wiki/… कहता है । यह "प्रतिशतक बूटस्ट्रैप" के रूप में समान प्रतिशत का उपयोग करता है, आप सही हैं, लेकिन उन्हें चारों ओर फ़्लिप करते हैं। क्या Efron और Hastie ने इसे अपने 4 तरीकों में शामिल किया है? वे इसे कैसे कहते हैं?
अमीबा का कहना है कि

मैंने MIT नोट्स में जो पढ़ा है, उसके आधार पर मैंने इस प्रश्न को स्पष्ट करने का प्रयास किया। मुझे बताएं कि क्या कुछ भी अस्पष्ट है (या यदि आपके पास स्वयं नोटों की जांच करने का समय है, तो शुद्धता के लिए मेरी पोस्ट देखें)।
क्लैरिनेटिस्ट

@Xavier एक मामला बना सकता है कि मेरा एफ्रॉन बयान समझ में आया था।
Aginensky

1
आपका कथन है कि "जिसे वे अनुभवजन्य बूटस्ट्रैप कहते हैं, वह अंतराल ," जहां " बूटस्ट्रैप का अनुमान है, ओपी द्वारा जुड़े एमआईटी पृष्ठ के संदर्भ में गलत है। अनुभवजन्य / बुनियादी बूटस्ट्रैप मूल नमूना अनुमान से बूटस्ट्रैप अनुमानों के अंतर के वितरण की जांच करता है , न कि बूटस्ट्रैप का वितरण स्वयं अनुमान लगाता है। यह सीआई में गंभीर मतभेद है, अगर पक्षपात होता है, जैसा कि मेरा उत्तर बताता है। इस पृष्ठ को एक उदाहरण के लिए देखें । [x¯δ.1,x¯δ.9]x¯
EdM

2

जैसा कि पहले ही उत्तर में उल्लेख किया गया है, "अनुभवजन्य बूटस्ट्रैप" को अन्य स्रोतों (आर फ़ंक्शन बूटसी ) सहित "मूल बूटस्ट्रैप" कहा जाता है , जो बिंदु अनुमान पर फ़्लिप किए गए "प्रतिशत बूटस्ट्रैप" के समान है। वेनबल्स और रिप्ले लिखते हैं ("एस के साथ आधुनिक एप्लाइड स्टैटिस्टिक्स", 4 वां संस्करण।, स्प्रिंगर, 2002, पी। 136:

असममित समस्याओं में मूल और प्रतिशतक अंतराल काफी भिन्न होंगे, और बुनियादी अंतराल अधिक तर्कसंगत लगते हैं।

जिज्ञासा से बाहर, मैंने दो असमान रूप से वितरित अनुमानकों के साथ व्यापक मोंटेकार्लो सिमुलेशन किया है, और अपने स्वयं के आश्चर्य के बारे में पाया- बिल्कुल विपरीत, यानी कि प्रतिशत अंतराल ने कवरेज की संभावना के संदर्भ में बुनियादी अंतराल को बेहतर बना दिया। यहां पर प्रत्येक नमूने का आकार के लिए कवरेज संभावना के साथ मेरी परिणाम हैं एक लाख विभिन्न नमूनों के साथ होने का अनुमान (से लिया इस तकनीकी रिपोर्ट ।, पी 26f):n

1) घनत्व साथ एक असममित वितरण का मतलब इस मामले में क्लासिक आत्मविश्वास अंतराल और तुलना के लिए दिए गए हैं।f(x)=3x2 असममित वितरण के साधन के लिए विभिन्न बूटस्ट्रैप अंतराल की कवरेज संभावना±t1α/2s2/n)±z1α/2s2/n)

2) घातीय वितरण में लिए अधिकतम संभावना अनुमानक । इस मामले में, दो वैकल्पिक विश्वास अंतराल तुलना के लिए दिए गए हैं: बार लॉग- हेसियन व्युत्क्रम, और बार जैकनेफ विचरण अनुमानक।λएक एमएल अनुमानक के लिए अलग बूटस्ट्रैप अंतराल के लिए कवरेज संभावना±z1α/2±z1α/2

दोनों उपयोग के मामलों में, बीसीए बूटस्ट्रैप में बूटस्ट्रैप विधियों के बीच उच्चतम कवरेज संभावना है, और प्रतिशतक बूटस्ट्रैप में बुनियादी / अनुभवजन्य बूटस्ट्रैप की तुलना में उच्च कवरेज संभावना है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.