बूटस्ट्रैपिंग क्यों उपयोगी है?


13

यदि आप सभी कर रहे हैं, तो अनुभवजन्य वितरण से पुन: नमूना लिया जाता है, तो सिर्फ अनुभवजन्य वितरण का अध्ययन क्यों नहीं किया जाता है? उदाहरण के लिए, बार-बार नमूने द्वारा परिवर्तनशीलता का अध्ययन करने के बजाय, अनुभवजन्य वितरण से परिवर्तनशीलता का मात्र निर्धारण क्यों नहीं किया जाता है?


6
" (इस अर्थ में), बूटस्ट्रैप वितरण हमारे पैरामीटर के लिए एक (लगभग) नॉनपैरामेट्रिक, नॉनफॉर्मेटिव पोस्टीरियर वितरण का प्रतिनिधित्व करता है। लेकिन इस बूटस्ट्रैप वितरण को दर्द रहित रूप से प्राप्त किया जाता है - बिना पूर्व औपचारिक रूप से निर्दिष्ट किए और पोस्टीरियर वितरण से नमूना लिए बिना। हम बूटस्ट्रैप वितरण के बारे में सोच सकते हैं कि "गरीब आदमी का" बेयर्स पीछे। "हस्ती एट अल।" सांख्यिकीय शिक्षा के तत्व "। संप्रदाय 8.4।
usεr11852 15:18

8
हम अनुभवजन्य वितरण से अपने अनुमानों की अनिश्चितता को कैसे निर्धारित करेंगे?
us --r11852

2
"हल्के नियमितता की शर्तों के तहत, बूटस्ट्रैप एक अनुमानक या परीक्षण सांख्यिकीय के वितरण के लिए एक सन्निकटन पैदा करता है जो कम से कम सटीक है जैसा कि प्रथम-क्रम स्पर्शोन्मुख सिद्धांत से प्राप्त सन्निकटन"। unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf
जूलमैन

10
आप बहस कर रहे हैं, समझने की कोशिश नहीं कर रहे हैं। मेरा विश्वास करो, आपको यह एहसास नहीं हुआ है कि बूटस्ट्रैप चार या अधिक दशकों से कई हजारों सांख्यिकीविदों के लिए बेकार है। आपने भाव को ध्यान से नहीं पढ़ा। मुझे लगता है कि आप आंकड़ों में मुख्य भूमिका यादृच्छिकता को समझने में विफल रहे हैं। "क्यों परेशान !!" जैसे कथन सम्मान के साथ " का वितरण प्राप्त करने के लिए ... असामान्य हैं, कम से कम कहने के लिए। यदि आप अपने अनुमानों के वितरण को समझना महत्वपूर्ण नहीं समझते हैं, तो आप यह विचार करना चाह सकते हैं कि आंकड़ों का क्षेत्र क्यों मौजूद है। सब पर, और फिर से लगता है कि।T(X)
जम्मन

4
@ztyh आप कहते हैं कि "आप प्रत्येक नमूने के नक्शे यदि के लिए आप का वितरण प्राप्त "। शायद आपको इस बारे में सोचना चाहिए, आप एक बिंदु को कैसे मैप करेंगे ? या उस मामले के लिए कोई भी कार्य । XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
knrumsey

जवाबों:


18

बूटस्ट्रैपिंग (या अन्य रेज़मैपलिंग) एक सांख्यिकीय पद्धति के वितरण का अनुमान लगाने के लिए एक प्रयोगात्मक विधि है।

यह एक बहुत ही सरल और आसान तरीका है (इसका मतलब है कि आप नमूना डेटा के कई यादृच्छिक वेरिएंट के साथ गणना करते हैं, ताकि अनुमान, सांख्यिकीय का वांछित वितरण) प्राप्त हो सके।

जब आप 'सैद्धांतिक / विश्लेषणात्मक' अभिव्यक्ति प्राप्त करना / गणना करना बहुत मुश्किल हो जाता है (या जैसे अक्सकल कहते हैं कि कभी-कभी वे अज्ञात होते हैं) तो आप इसका सबसे अधिक उपयोग करते हैं।

  • उदाहरण 1: यदि आप एक pca विश्लेषण करते हैं और परिणामों की तुलना करना चाहते हैं तो val आइजेनवेल्स के विचलन के अनुमानों ’के साथ परिणामों की परिकल्पना को देखते हुए कि चर में कोई संबंध नहीं है।

    आप डेटा को कई बार स्क्रैम्बल कर सकते हैं और pca eigenvalues ​​को फिर से कंप्यूटिंग कर सकते हैं जैसे कि आपको eigenvalues ​​के लिए वितरण (नमूना डेटा के साथ यादृच्छिक परीक्षणों के आधार पर) मिलता है।

    ध्यान दें कि वर्तमान प्रथाएं एक डरावनी साजिश की ओर ध्यान दे रही हैं और 'निश्चित' करने के लिए अंगूठे के नियमों को लागू करती हैं कि क्या एक निश्चित स्वदेशी महत्वपूर्ण / महत्वपूर्ण है या नहीं।

  • उदाहरण 2: आपने एक गैर-रेखीय प्रतिगमन y ~ f (x) किया जो आपको फ़ंक्शन f के लिए मापदंडों के गुच्छा के कुछ अनुमान प्रदान करता है। अब आप उन मापदंडों के लिए मानक त्रुटि जानना चाहते हैं

    अवशेषों और रैखिक बीजगणित पर कुछ सरल नज़र, जैसे कि ओएलएस में, यहाँ संभव नहीं है। हालाँकि, एक आसान तरीका यह है कि एक ही रिग्रेशन को कई बार अवशिष्टों / त्रुटियों के साथ गणना किया जाए ताकि यह अंदाजा लगाया जा सके कि पैरामीटर अलग-अलग कैसे होंगे (त्रुटि अवधि के लिए वितरण को देखे गए अवशिष्टों द्वारा प्रतिरूपित किया जा सकता है)।


StackExchangeStrike द्वारा लिखित


2
मुझे लगता है कि आपका उदाहरण बूटस्ट्रैप नहीं है। एक ज्ञात अशक्त वितरण से इसका सिर्फ नमूना है। बूटस्ट्रैप वह जगह है जहां आपके पास एक नमूना है और बार-बार उस नमूने से नमूना आता है।
ztyh

3
आपके प्रश्न में आप एक नमूने के विचरण की गणना करने की कल्पना करते हैं, जो वास्तव में सरल है और बूटस्ट्रैपिंग की आवश्यकता नहीं है। मेरे उदाहरण में मैं एक ऐसी स्थिति के बारे में बात करता हूं जिसमें हमारे पास एक मूल्य है जो नमूने से प्राप्त होता है। तब हम केवल एक विचरण की गणना नहीं कर सकते हैं, फिर भी हम यह जानना चाहते हैं कि यह कैसे बदलता है। डेटा को कई बार खंगालने और pca eigenvalues ​​को री-कंप्यूटिंग करने से आप ऐसा वितरण (यादृच्छिक) डेटा प्राप्त कर सकते हैं जो आपके नमूने के वितरण का अनुसरण करता है। अगर मैं गलत नहीं हूँ यह है बूटस्ट्रैपिंग कहा जाता है।
सेक्स्टस एम्पिरिकस

ठीक है, मैं देखता हूं कि मैं चीजों को कहां गलत समझ रहा था। आपका उदाहरण समझ में आता है। धन्यवाद।
17

8

महत्वपूर्ण बात यह है कि बूटस्ट्रैप वास्तव में डेटा के वितरण की विशेषताओं का पता लगाने के बारे में नहीं है , बल्कि डेटा पर लगाए गए एक अनुमानक की सुविधाओं का पता लगा रहा है ।

अनुभवजन्य वितरण फ़ंक्शन जैसा कुछ आपको सीडीएफ का एक अच्छा अनुमान बताएगा जिसमें से डेटा आया था ... लेकिन अलग-थलग करके, यह आपको अनिवार्य रूप से बताता है कि हम उस डेटा से कितने विश्वसनीय अनुमानक का निर्माण करते हैं। यह बूटस्ट्रैप का उपयोग करके उत्तर दिया गया प्रश्न है।


1
"डेटा के वितरण" को खोजने के लिए गैर-पैरामीट्रिक) बूटस्ट्रैप का उपयोग करना एक हंसी होगी: यह केवल अनुभवजन्य वितरण फ़ंक्शन के साथ आता है, जो वास्तव में विश्लेषक द्वारा शुरू किए गए डेटा का सेट है। कॉलेज के बीजगणित की याद दिलाता है जब मैं "एक्स के लिए हल करता हूं" और "एक्स = एक्स" ढूंढता हूं।
एडम ओ

3

यदि आपको पता है कि अंतर्निहित वितरण क्या है, तो आपको इसका अध्ययन करने की आवश्यकता नहीं है। कभी-कभी, प्राकृतिक विज्ञानों में आप बिल्कुल वितरण जानते हैं।

यदि आप वितरण के प्रकार को जानते हैं, तो आपको केवल इसके मापदंडों का अनुमान लगाने की आवश्यकता है, और इसका मतलब है कि आप जिस अर्थ में हैं, उसका अध्ययन करें। उदाहरण के लिए, कभी-कभी आप एक प्राथमिकता जानते हैं कि अंतर्निहित वितरण सामान्य है। कुछ मामलों में आप यह भी जानते हैं कि इसका मतलब क्या है। इसलिए, सामान्य तौर पर केवल यह पता लगाने के लिए कि मानक विचलन है। आप नमूना से नमूना मानक विचलन प्राप्त करते हैं, और वॉइला, आपको अध्ययन करने के लिए वितरण मिलता है।

यदि आपको नहीं पता है कि वितरण क्या है, लेकिन यह सोचें कि यह सूची में कई में से एक है, तो आप उन वितरण को डेटा में फिट करने का प्रयास कर सकते हैं, और जो सबसे अच्छा फिट बैठता है उसे चुनें। क्या आप उस वितरण का अध्ययन करते हैं।

अंतिम रूप से, अक्सर आप यह नहीं जानते हैं कि आप किस प्रकार का वितरण कर रहे हैं। और आपके पास यह मानने का कोई कारण नहीं है कि यह 20 वितरणों में से एक है जो आर आपके डेटा को फिट कर सकता है। तुम क्या करने वाले हो? ठीक है, आप माध्य और मानक विचलन को देखते हैं, अच्छा है। लेकिन क्या होगा अगर यह बहुत तिरछा है? क्या होगा अगर इसका कुर्तोसिस बहुत बड़ा है? और इसी तरह। आपको वास्तव में वितरण के सभी क्षणों को जानने , और उसका अध्ययन करने की आवश्यकता है। तो, इस मामले में गैर पैरामीट्रिक बूटस्ट्रैपिंग काम आता है। आप इससे बहुत अधिक और सरल नमूना नहीं मानते हैं, फिर इसके क्षणों और अन्य गुणों का अध्ययन करें।

हालांकि गैर-पैरामीट्रिक बूटस्ट्रैपिंग एक जादुई उपकरण नहीं है, लेकिन इसमें समस्याएं हैं। उदाहरण के लिए, यह पक्षपाती हो सकता है। मुझे लगता है कि पैरामीट्रिक बूटस्ट्रैपिंग निष्पक्ष है


1
मुझे लगता है कि भले ही आपको सही वितरण का पता नहीं था, लेकिन कई क्षणों की गणना करना आसान है। इसलिए मुझे लगता है कि समस्या यह नहीं है कि आप किस प्रकार के वितरण के साथ काम कर रहे हैं। बल्कि यह इस बारे में है कि आप किस तरह के आंकड़े का अध्ययन करने की कोशिश कर रहे हैं। कुछ आँकड़ा गणना के लिए कठिन हो सकता है और उसके बाद ही बूटस्ट्रैप उपयोगी होता है।
15

सवाल करने के लिए टिप्पणी करने के लिए us ther11852 की तरह, वास्तव में मुझे आँकड़ों की कम्प्यूटेबिलिटी के संबंध में लाभों के बारे में संदेह है ...
ztyh

वास्तव में मुझे लगता है कि यह अभी भी एक नहीं brainer है। आप प्रत्येक नमूने को मैप करते हैं । फिर क्वांटाइल ढूंढना फिर से 1 लाइन कोड है। तो कोड की कुल 2 पंक्तियाँ। ln(x3+x)
ztyh

1
quantile एक बेवकूफी भरा उदाहरण था, मैं आपको वह देता हूँ। इसके बजाय मतलब का प्रयास करें। अपने अभ्यास में मुझे या उससे भी अधिक जटिल फ़ंक्शंस का अनुमान जहाँ एक अज्ञात संयुक्त वितरण से हैं। मुझे अंतिम पूर्वानुमान के गुण प्राप्त करने की आवश्यकता है। क्षणों के साथ कोशिश करें। बूटस्ट्रैपिंग के साथ यह एक दिमाग नहीं है। ( एक्स , जेड ) एक्स , जेडxzf(x,z)x,z
अक्कल A

1
कैसे कभी जटिल शायद, तुम सब करने की ज़रूरत के नमूने नक्शा है और के लिए । फिर उन मैप किए गए नमूनों का अध्ययन करें। यदि आप बूटस्ट्रैप का उपयोग कर सकते हैं, तो इसका मतलब है कि आप ऐसा कर सकते हैं, और यह बहुत आसान है ...x z f ( x , z )fxzf(x,z)
ztyh
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.