क्या बायेसियन दृष्टिकोण से बूटस्ट्रैप की व्याख्या करना संभव है?


43

ठीक है, यह एक सवाल है जो मुझे रात में रखता है।

क्या बूटस्ट्रैप प्रक्रिया की व्याख्या कुछ बायेसियन प्रक्रिया (बायेसियन बूटस्ट्रैप को छोड़कर) के रूप में की जा सकती है?

मुझे वास्तव में बायेसियन की व्याख्या "पसंद है" जो मुझे अच्छी तरह से सुसंगत और समझने में आसान लगती है। हालाँकि, मेरे पास बूटस्ट्रैप प्रक्रिया के लिए एक कमजोरी भी है जो इतनी सरल है, फिर भी कई स्थितियों में उचित अनुमान लगाती है। मैं बूटस्ट्रैपिंग से अधिक खुश होऊंगा, हालांकि, अगर मुझे पता था कि बूटस्ट्रैप कुछ अर्थों में पीछे वितरण का अनुमान लगा रहा है।

मुझे "बायेसियन बूटस्ट्रैप" (रुबिन, 1981) के बारे में पता है, लेकिन मेरे दृष्टिकोण से बूटस्ट्रैप का संस्करण मानक बूटस्ट्रैप जितना ही समस्याग्रस्त है। समस्या वास्तव में अजीबोगरीब मॉडल धारणा है जिसे आप शास्त्रीय और बायेसियन बूटस्ट्रैप करते समय बनाते हैं, अर्थात, वितरण के संभावित मान केवल मेरे द्वारा देखे गए मान हैं। इन अजीब मॉडल मान्यताओं को अभी भी बहुत उचित अनुमान मिल सकते हैं कि बूटस्ट्रैप प्रक्रियाएं कैसे उपजती हैं? मैं उन लेखों की तलाश में हूं, जिन्होंने बूटस्ट्रैप (जैसे वेंग, 1989) के गुणों की जांच की है, लेकिन मुझे कोई स्पष्ट स्पष्टीकरण नहीं मिला है जिससे मैं खुश हूं।

संदर्भ

डोनाल्ड बी। रुबिन (1981)। बायेसियन बूटस्ट्रैप। एन। सांख्यिकीविद। वॉल्यूम 9, नंबर 1, 130-134।

चुंग-सिंग वेंग (1989)। बायेसियन बूटस्ट्रैप मीन के दूसरे-क्रम के असममित संपत्ति पर। सांख्यिकी के इतिहास , वॉल्यूम। 17, नंबर 2, पीपी 705-710।


3
मैंने अभी " बूटस्टैप ऑन द बायेसियन मॉडल" ( sumsar.net/blog/2015/04/… ) पर एक ब्लॉग पोस्ट लिखी है जो बूटस्ट्रैप के बायेसियन "स्पष्टीकरण" की खोज करता है। यह सीधे ऊपर दिए गए प्रश्नों का उत्तर नहीं देता है, लेकिन मुझे आशा है कि यह स्पष्ट करता है कि बूटस्ट्रैप क्या है और यह क्या करता है।
रासमस बैथ

मुलेर और सेकची (1996) बायेसियन नॉनमेट्रिक प्रेडिक्टिव इनविज़न और बूटस्ट्रैप तकनीक पढ़ें। तेरा पता बिल्कुल अपनी बात!

जवाबों:


30

हेस्टी, टिब्शिरानी, ​​और फ्रीडमैन द्वारा सांख्यिकीय सीखने के तत्वों की धारा 8.4 "बूटस्ट्रैप और बायेसियन इंट्रेंस के बीच संबंध है।" यह वही हो सकता है जो आप ढूंढ रहे हैं। मेरा मानना ​​है कि यह पुस्तक स्टैनफोर्ड वेबसाइट के माध्यम से स्वतंत्र रूप से उपलब्ध है, हालांकि मेरे पास हाथ पर लिंक नहीं है।

संपादित करें:

यहाँ पुस्तक का लिंक दिया गया है, जिसे लेखकों ने स्वतंत्र रूप से ऑनलाइन उपलब्ध कराया है:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

पृष्ठ 272 पर, लेखक लिखते हैं:

इस अर्थ में, बूटस्ट्रैप वितरण हमारे पैरामीटर के लिए एक (लगभग) गैर-समरूप, गैर-सूचनात्मक पीछे वितरण का प्रतिनिधित्व करता है। लेकिन यह बूटस्ट्रैप वितरण दर्द रहित रूप से प्राप्त किया जाता है - बिना औपचारिक रूप से पूर्व निर्दिष्ट किए और बिना पीछे के वितरण से नमूना लिए। इसलिए हम बूटस्ट्रैप वितरण के बारे में सोच सकते हैं कि "गरीब आदमी का" बेयर्स पीछे है। डेटा को नष्ट करके, बूटस्ट्रैप मापदंडों को गड़बड़ी करने के बायेसियन प्रभाव का अनुमान लगाता है, और आमतौर पर बाहर ले जाने के लिए बहुत सरल है।

पहेली का एक और टुकड़ा इस क्रॉस वैध प्रश्न में पाया गया है जिसमें ड्वॉर्त्ज़की-किफ़र-वोल्फोवित्ज़ असमानता का उल्लेख है जो "दिखाता है [...] कि अनुभवजन्य वितरण फ़ंक्शन समान रूप से सत्य वितरण समारोह में तेजी से संभाव्यता में तेजी से परिवर्तित होता है।"

तो सभी गैर-पैरामीट्रिक बूटस्ट्रैप में सभी को एक असममित विधि के रूप में देखा जा सकता है जो हमारे पैरामीटर के लिए "एक (अनुमानित) गैर-समरूप, गैर-विपर्ययण वितरण" पैदा करता है और जहां यह सन्निकटन बेहतर "घातीय रूप से तेज" हो जाता है क्योंकि नमूनों की संख्या बढ़ जाती है।


3
जब हम हमेशा प्रासंगिक सामग्री के संदर्भों की सराहना करते हैं, तो इस उत्तर में बहुत सुधार होगा यदि उस अनुभाग का एक संक्षिप्त सारांश शामिल किया गया था।
कार्डिनल

1
उस खंड से अंतिम बिट अधिक उपयोगी हो सकता है: बूटस्ट्रैप अनुमानित पैरामीटर के लिए एक अनुमानित गैर पैरामीट्रिक, गैर-सूचनात्मक पीछे वितरण है। पूरा खंड पढ़ने लायक है।
फरिजो

2
लिंक के लिए धन्यवाद! अगर मैं हस्ती एट अल पढ़ता हूं। सही वे गैर पैरामीट्रिक बूस्टर और बेयसियन बूटस्ट्रैप के बीच एक पत्राचार दिखाते हैं और दावा करते हैं कि पूर्व उत्तरार्द्ध का अनुमान लगाता है। वे इस बारे में ज्यादा नहीं लिखते हैं कि बूटस्ट्रैप (बायेसियन या नहीं) का परिणाम पहली जगह में समझदार इनफेक्शन क्यों होता है। मैं जिस चीज की उम्मीद कर रहा था वह कुछ इस तरह थी: "[कुछ सामान्य परिस्थितियों में] बूटस्ट्रैप एक त्रुटि के साथ पैरामीटर / आंकड़ों के सही पीछे वितरण का अनुमान लगाता है जो [कुछ] है और यह [इस और उस] पर निर्भर करता है"।
रासमस बैस्ट

मेरे उत्तर को बेहतर बनाने में मदद के लिए धन्यवाद। सबसे स्पष्ट स्पष्टीकरण मैंने सुना है कि बूटस्ट्रैप क्यों काम करता है कि जो नमूना आपने अभी एकत्र किया है वह सबसे अच्छा प्रतिनिधित्व है जो आपके पास समग्र आबादी का है। लेकिन मैं औपचारिक रूप से पर्याप्त नहीं हूं कि इसे और अधिक औपचारिक रूप से रखूं।
ईडीएम

अगर मुझे याद है, तो वे इस तर्क को बनाते हैं, एक NN को बूटस्ट्रैप करते हैं, और रेडफोर्ड नील द्वारा एक पूरी तरह से बायेसियन NN द्वारा क्रीम लगाने के लिए आगे बढ़ते हैं। मुझे लगता है कि कुछ कहता है, निश्चित नहीं है कि क्या है।
पुरुष

3

यह नवीनतम पेपर है जिसे मैंने इस विषय पर देखा है:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}

2
कागज की मेरी व्याख्या यह है कि यह एक निर्दिष्ट मॉडल के पीछे वितरण की गणना के लिए एक बूटस्ट्रैप विधि का वर्णन करता है, यह एक ऐसी विधि है जिसका उपयोग उदाहरण के लिए महानगर नमूना के बजाय किया जा सकता है। मैं नहीं देखता कि कागज गैर पैरामीट्रिक बूटस्ट्रैप मॉडल मान्यताओं और बेयसियन आकलन के बीच संबंध पर चर्चा करता है ...
रासमस बैस्ट

1
यह ऐसा करने का दावा करता है। मैंने विस्तार से पेपर नहीं पढ़ा है।
फ्रैंक हार्डेल

5
फ्रैंक: मैं एफ्रॉन द्वारा इस पत्र को पढ़ने से बहुत कुछ नहीं निकाल पाया - जो वह करता है उसे सिर्फ एक अनुक्रमिक महत्व के नमूने के रूप में देखा जा सकता है जो संभावना से शुरू होता है और पश्च (जो अक्सर काम करेगा) तक पहुंचने की कोशिश करता है। 1981 के पेपर में रुबिन का उद्देश्य बूटस्ट्रैप की उपयुक्तता पर सवाल उठाना था लेकिन एफ्रॉन का स्पष्ट रूप से विपरीत दृष्टिकोण तक पहुंच गया। डेविड ड्रेपर ने इस गर्मी को अपने जेएसएम पाठ्यक्रम में फिर से शामिल किया और इसके बुरे को समाप्त कर दिया जब आप नमूने में अधिकांश संभावनाओं को देखते हैं। लेकिन यहाँ देखें normaldeviate.wordpress.com/2013/06/12/…
phaneron

1

मैं भी बूटस्ट्रैपिंग और बेयस प्रमेय दोनों द्वारा बहकाया गया था, लेकिन मैं बूटस्ट्रैपिंग के औचित्य का कोई मतलब नहीं बना सकता था जब तक कि मैं इसे बायेसियन दृष्टिकोण से नहीं देखता। फिर - जैसा कि मैं नीचे समझाता हूं - बूटस्ट्रैप वितरण को बायेसियन पश्च वितरण के रूप में देखा जा सकता है, जो बूटस्ट्रैपिंग के पीछे ((?) औचित्य स्पष्ट करता है, और बनाई गई मान्यताओं को स्पष्ट करने का भी लाभ था। नीचे दिए गए तर्क, और https://arxiv.org/abs/1803.06214 (पृष्ठ 22-26) में मान्यताओं का अधिक विवरण है ।

एक उदाहरण के रूप में, जो http://woodm.myweb.port.ac.uk/SL/resample.xlsx पर स्प्रैडशीट पर सेट किया गया है (स्क्रीन के निचले भाग में बूटस्ट्रैप टैब पर क्लिक करें), मान लें कि हमें मिल गया है 60 के एक साधन के साथ 9 मापों का एक नमूना। जब मैंने इस नमूने से प्रतिस्थापन के साथ 1000 resamples का उत्पादन करने के लिए स्प्रेडशीट का उपयोग किया और इसका मतलब निकटतम सम संख्या में बंद कर दिया, तो इनमें से 82 का मतलब 54 था। बूटस्ट्रैपिंग का विचार यह है कि हम नमूना को "दिखावा" जनसंख्या के रूप में उपयोग करें यह देखने के लिए कि 9 के नमूनों के साधन कितने परिवर्तनशील हैं, इसलिए इससे पता चलता है कि नमूने के जनसंख्या की औसत से 6 प्रतिशत कम होने की संभावना है (इस मामले में ढोंग आबादी के आधार पर 60 के माध्य से नमूना 8.2% है। और हम रेज़मैपलिंग हिस्टोग्राम में अन्य सलाखों के बारे में एक समान निष्कर्ष पर आ सकते हैं।

अब आइए कल्पना करें कि सच्चाई यह है कि वास्तविक जनसंख्या का अर्थ 66 है। यदि ऐसा है तो हमारे नमूने के 60 (अर्थात डेटा) होने की संभावना का अनुमान 8.2% है (याद में ऊपर दिए गए पैराग्राफ में निष्कर्ष का उपयोग करते हुए) वह ६०, ६६ की परिकल्पित जनसंख्या के नीचे ६ है)। आइए इसे लिखते हैं

पी (डेटा दिया गया मतलब = 66) = 8.2%

और यह संभावना पुनरुत्पादन वितरण पर 54 मूल्य के x मान से मेल खाती है। एक ही तरह का तर्क 0, 2, 4 ... 100 से प्रत्येक संभावित जनसंख्या माध्य पर लागू होता है। प्रत्येक मामले में संभावना पुनरुत्पादन वितरण से होती है - लेकिन यह वितरण 60 के माध्य से परिलक्षित होता है।

अब आइए बेयस की प्रमेय लागू करें। प्रश्न में माप केवल 0 और 100 के बीच मान ले सकता है, इसलिए निकटतम सम संख्या को पूर्णांक संख्या में जनसंख्या के लिए संभावनाएं 0, 2, 4, 6, .... 100 हैं। यदि हम मानते हैं कि पूर्व वितरण समतल है, तो इनमें से प्रत्येक में 2% (1 डीपी) की पूर्व संभावना है, और बेयस प्रमेय हमें बताता है कि

P (PopMean = 66 दिए गए डेटा) = 8.2% * 2% / P (डेटा)

कहाँ पे

P (डेटा) = P (PopMean = 0 दिया गया डेटा) * 2% + P (PopMean = 2 दिया गया डेटा) * 2% + ... + P (PopMean = 100 दिया गया डेटा) * 2%

हम अब 2% को रद्द कर सकते हैं और याद रख सकते हैं कि संभाव्यता का योग 1 होना चाहिए क्योंकि संभाव्यताएं बस पुनरुत्पादन वितरण से हैं। जो हमें इस निष्कर्ष के साथ छोड़ देता है कि

पी (PopMean = 66) = 8.2%

यह याद रखना कि 8.2% का पुनरुत्पादन वितरण से 54 (66 के बजाय) की संभावना है, पश्च वितरण केवल नमूना मतलब (60) के बारे में परिलक्षित होता है। इसके अलावा, यदि पुनरुत्पादन वितरण इस अर्थ में सममित है कि विषमता यादृच्छिक है - जैसा कि इस और कई अन्य मामलों में है, तो हम पुनरुत्पादन वितरण को पूर्ववर्ती वितरण वितरण के समान होने के रूप में ले सकते हैं।

यह तर्क विभिन्न धारणाएं बनाता है, मुख्य यह है कि पूर्व वितरण एक समान है। ये ऊपर उद्धृत लेख में अधिक विस्तार से लिखे गए हैं।


एक बायेसियन बूटस्ट्रैप के रूप में ऐसी चीज है जो रूबिन द्वारा पेश की गई थी। लेकिन मुझे नहीं लगता कि आप इसका जिक्र कर रहे हैं। एफ्रॉन द्वारा पेश किया गया साधारण बूटस्ट्रैप वास्तव में एक लगातार अवधारणा है।
माइकल चेरिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.