बूटस्ट्रैप विधि / प्रस्तावित विधि के लिए आवश्यक नमूना आकार का निर्धारण


33

मुझे पता है कि यह एक बहुत ही गर्म विषय है जहां कोई भी वास्तव में एक सरल जवाब नहीं दे सकता है। फिर भी मैं सोच रहा हूं कि क्या निम्नलिखित दृष्टिकोण उपयोगी नहीं हो सकता है।

बूटस्ट्रैप विधि केवल तभी उपयोगी है जब आपका नमूना अधिक या कम (बिल्कुल पढ़ें) मूल जनसंख्या के समान वितरण हो। इस मामले में निश्चित होने के लिए आपको अपने नमूना आकार को काफी बड़ा बनाने की आवश्यकता है। लेकिन क्या काफी बड़ा है?

यदि मेरा आधार सही है, तो जनसंख्या की औसत निर्धारित करने के लिए केंद्रीय सीमा प्रमेय का उपयोग करते समय आपको यही समस्या है। केवल जब आपका नमूना आकार काफी बड़ा होता है, तो आप निश्चित हो सकते हैं कि आपके नमूना साधनों की जनसंख्या सामान्य रूप से वितरित की जाती है (जनसंख्या का मतलब चारों ओर)। दूसरे शब्दों में, आपके नमूनों को आपकी आबादी (वितरण) का अच्छी तरह से प्रतिनिधित्व करने की आवश्यकता है। लेकिन फिर, क्या काफी बड़ा है?

मेरे मामले में (प्रशासनिक प्रक्रिया: एक मांग को पूरा करने के लिए समय की आवश्यकता बनाम मांगों की राशि) मेरे पास एक बहु-मोडल वितरण (2011 में समाप्त होने वाली सभी मांगें) के साथ आबादी है, जिनमें से मैं 99% निश्चित हूं कि यह और भी कम है आम तौर पर आबादी की तुलना में वितरित किया जाता है (सभी मांगें जो वर्तमान दिन और अतीत में एक दिन के बीच समाप्त हो जाती हैं, आदर्श रूप से यह समय जितना संभव हो उतना छोटा है) मैं शोध करना चाहता हूं।

मेरे 2011 की पर्याप्त इकाइयों के बाहर मौजूद है बनाने के लिए एक नमूना आकार के नमूने एन । मैं x का मान चुनता हूं , मान लीजिए 10 ( x = 10 )। अब मैं एक अच्छा नमूना आकार निर्धारित करने के लिए परीक्षण और त्रुटि का उपयोग करता हूं। मैं एक n = 50 लेता हूं , और देखता हूं कि क्या मेरे नमूने का मतलब है कि आम तौर पर कोलमोगोरोव-स्मिर्नोव का उपयोग करके वितरित किया जाता है। यदि हां, तो मैं उसी चरणों को दोहराता हूं, लेकिन 40 के नमूने के आकार के साथ, यदि 60 (आदि) के नमूने के आकार के साथ नहीं दोहराता हूं ।xnx10x=10n=504060

थोड़ी देर बाद मैं यह निष्कर्ष निकालता हूं कि मेरी 2011 की आबादी का अधिक या कम अच्छा प्रतिनिधित्व पाने के लिए पूर्ण न्यूनतम नमूना आकार है। चूँकि मैं अपनी ब्याज की जनसंख्या जानता हूं (सभी मांगें जो वर्तमान दिन और अतीत में एक दिन के बीच समाप्त होती हैं) में कम विचरण होता है मैं सुरक्षित रूप से n = 45 से बूटस्ट्रैप के नमूने के आकार का उपयोग कर सकता हूं । (परोक्ष रूप से, n = 45 मेरे समय के आकार को निर्धारित करता है: 45 मांगों को पूरा करने के लिए आवश्यक समय ।)n=45n=45n=4545

यह संक्षेप में, मेरा विचार है। लेकिन चूंकि मैं एक सांख्यिकीविद् नहीं हूं, लेकिन एक इंजीनियर जिसके आँकड़े के पाठ योनर के दिनों में हुए थे, मैं इस संभावना को बाहर नहीं कर सकता कि मैंने सिर्फ बहुत सारी बकवास उत्पन्न की है :-)। आप लोग क्या सोचते हैं? अगर मेरा आधार समझ में आता है, तो क्या मुझे 10 से बड़ा चुनने की जरूरत है , या छोटा? आपके उत्तरों के आधार पर (क्या मुझे शर्मिंदगी महसूस करने की आवश्यकता है या नहीं? :-) मैं कुछ और चर्चा विचार पोस्ट करूंगा।x10

पहले उत्तर पर प्रतिक्रिया उत्तर देने के लिए धन्यवाद, आपका उत्तर मेरे लिए विशेष रूप से पुस्तक लिंक के लिए बहुत उपयोगी था।
लेकिन मुझे डर है कि जानकारी देने की मेरी कोशिश में मैंने अपने सवाल को पूरी तरह से दबा दिया। मुझे पता है कि बूटस्ट्रैप के नमूने जनसंख्या के नमूने के वितरण में लगते हैं। मैं आपका पूरी तरह से पालन करता हूं लेकिन ...

आपके मूल जनसंख्या नमूने के लिए पर्याप्त रूप से निश्चित होना चाहिए कि आपकी जनसंख्या के नमूने का वितरण जनसंख्या के 'वास्तविक' वितरण के साथ बराबर (बराबर) हो।

यह केवल इस बात पर विचार है कि यह निर्धारित करने के लिए कि आपके मूल नमूने का आकार कितना बड़ा होना चाहिए ताकि नमूना वितरण जनसंख्या वितरण के साथ मेल खाता हो।

मान लीजिए कि आपके पास एक द्विपाद जनसंख्या वितरण है और एक शीर्ष दूसरे की तुलना में बहुत बड़ा है। यदि आपका नमूना आकार 5 है तो मौका बड़ा है कि सभी 5 इकाइयों का मूल्य बड़े शीर्ष के बहुत करीब है (मौका बेतरतीब ढंग से एक इकाई आकर्षित करने का मौका सबसे बड़ा है)। इस मामले में आपका नमूना वितरण विक मोनोमॉडल दिखता है।

एक सौ के आकार के साथ मौका है कि आपके नमूना वितरण भी bimodal है एक बहुत बड़ा है !! बूटस्ट्रैपिंग के साथ परेशानी यह है कि आपके पास केवल एक नमूना है (और आप उस नमूने पर आगे निर्माण करते हैं)। यदि नमूना वितरण वास्तव में जनसंख्या वितरण के साथ मेल नहीं खाता है तो आप मुसीबत में हैं। यह सिर्फ एक नमूना है कि आप अपने नमूना आकार को असीम रूप से बड़ा करने के लिए बिना कम से कम 'खराब नमूना वितरण' होने की संभावना बना सकते हैं।

जवाबों:


38

मैंने इस सवाल में दिलचस्पी ली क्योंकि मैंने बूटस्ट्रैप शब्द देखा और मैंने बूटस्ट्रैप पर किताबें लिखी हैं। इसके अलावा लोग अक्सर पूछते हैं "बूटस्ट्रैप के कितने नमूनों की मुझे बूटस्ट्रैप परिणाम के लिए एक अच्छा मोंटे कार्लो सन्निकटन प्राप्त करने की आवश्यकता है?" उस प्रश्न का मेरा सुझाया हुआ उत्तर है कि आप अभिसरण प्राप्त करने तक आकार में वृद्धि करते रहें। कोई भी नंबर सभी समस्याओं के लिए उपयुक्त नहीं है।

nnnमूल नमूने से। बूटस्ट्रैप सिद्धांत धारण करता है या नहीं यह किसी भी व्यक्तिगत नमूने पर निर्भर नहीं करता है "जनसंख्या का प्रतिनिधि"। यह इस बात पर निर्भर करता है कि आप क्या अनुमान लगा रहे हैं और जनसंख्या वितरण के कुछ गुण हैं (उदाहरण के लिए, यह नमूने के लिए काम करता है, जिसमें जनसंख्या वितरण के साथ परिमित संस्करण होते हैं, लेकिन तब नहीं जब उनके पास अनंत संस्करण हों)। यह जनसंख्या वितरण की परवाह किए बिना चरम सीमा का आकलन करने के लिए काम नहीं करेगा।

बूटस्ट्रैप के सिद्धांत में अनुमान की स्थिरता दिखाना शामिल है। तो यह सिद्धांत में दिखाया जा सकता है कि यह बड़े नमूनों के लिए काम करता है। लेकिन यह छोटे नमूनों में भी काम कर सकता है। मैंने इसे वर्गीकरण त्रुटि दर के आकलन के लिए विशेष रूप से छोटे नमूने के आकार में काम करने के लिए देखा है जैसे कि बीवरिएट डेटा के लिए 20।

अब अगर सैंपल का आकार बहुत छोटा है --- तो 4 कहिए --- बूटस्ट्रैप सिर्फ इसलिए काम नहीं कर सकता है क्योंकि संभव बूटस्ट्रैप नमूनों का सेट पर्याप्त समृद्ध नहीं है। मेरी किताब या पीटर हॉल की पुस्तक में बहुत छोटे नमूने के इस मुद्दे पर चर्चा की गई है। लेकिन अलग बूटस्ट्रैप नमूनों की यह संख्या बहुत जल्दी बड़ी हो जाती है। तो यह नमूना आकार के लिए भी एक मुद्दा नहीं है जितना छोटा 8. आप इन संदर्भों पर एक नज़र डाल सकते हैं:


3
क्या कोई जांच करने के लिए कोई मानक परीक्षण है कि क्या वहाँ (उदाहरण के लिए 4 नमूने) पर्याप्त नहीं है? मेरे पास एक डेटासेट है जहां मैं माध्य के लिए बूटस्ट्रैप्ड आत्मविश्वास अंतराल की गणना कर रहा हूं, लेकिन कुछ व्यक्तियों के पास बहुत कम डेटा पॉइंट्स हैं (कुछ मामलों में <8)। मेरी वृत्ति मुझे बताती है कि मुझे ऐसे व्यक्तियों की अवहेलना करनी चाहिए जिनके पास n से कम डेटा बिंदु हैं, लेकिन फिर मैं इस कटऑफ़ एन को कैसे परिभाषित करूं? मैं एक आम तौर पर स्वीकार किए गए कटऑफ मान को खोजने की उम्मीद कर रहा था (एक मिश्रित-मॉडल विश्लेषण में प्रति समूह नमूनों की संख्या के लिए 6 या 7 मनमाना कट-ऑफ पॉइंट है)।
आरटीबार्ड 13

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.