मुझे पता है कि यह एक बहुत ही गर्म विषय है जहां कोई भी वास्तव में एक सरल जवाब नहीं दे सकता है। फिर भी मैं सोच रहा हूं कि क्या निम्नलिखित दृष्टिकोण उपयोगी नहीं हो सकता है।
बूटस्ट्रैप विधि केवल तभी उपयोगी है जब आपका नमूना अधिक या कम (बिल्कुल पढ़ें) मूल जनसंख्या के समान वितरण हो। इस मामले में निश्चित होने के लिए आपको अपने नमूना आकार को काफी बड़ा बनाने की आवश्यकता है। लेकिन क्या काफी बड़ा है?
यदि मेरा आधार सही है, तो जनसंख्या की औसत निर्धारित करने के लिए केंद्रीय सीमा प्रमेय का उपयोग करते समय आपको यही समस्या है। केवल जब आपका नमूना आकार काफी बड़ा होता है, तो आप निश्चित हो सकते हैं कि आपके नमूना साधनों की जनसंख्या सामान्य रूप से वितरित की जाती है (जनसंख्या का मतलब चारों ओर)। दूसरे शब्दों में, आपके नमूनों को आपकी आबादी (वितरण) का अच्छी तरह से प्रतिनिधित्व करने की आवश्यकता है। लेकिन फिर, क्या काफी बड़ा है?
मेरे मामले में (प्रशासनिक प्रक्रिया: एक मांग को पूरा करने के लिए समय की आवश्यकता बनाम मांगों की राशि) मेरे पास एक बहु-मोडल वितरण (2011 में समाप्त होने वाली सभी मांगें) के साथ आबादी है, जिनमें से मैं 99% निश्चित हूं कि यह और भी कम है आम तौर पर आबादी की तुलना में वितरित किया जाता है (सभी मांगें जो वर्तमान दिन और अतीत में एक दिन के बीच समाप्त हो जाती हैं, आदर्श रूप से यह समय जितना संभव हो उतना छोटा है) मैं शोध करना चाहता हूं।
मेरे 2011 की पर्याप्त इकाइयों के बाहर मौजूद है बनाने के लिए एक नमूना आकार के नमूने एन । मैं x का मान चुनता हूं , मान लीजिए 10 ( x = 10 )। अब मैं एक अच्छा नमूना आकार निर्धारित करने के लिए परीक्षण और त्रुटि का उपयोग करता हूं। मैं एक n = 50 लेता हूं , और देखता हूं कि क्या मेरे नमूने का मतलब है कि आम तौर पर कोलमोगोरोव-स्मिर्नोव का उपयोग करके वितरित किया जाता है। यदि हां, तो मैं उसी चरणों को दोहराता हूं, लेकिन 40 के नमूने के आकार के साथ, यदि 60 (आदि) के नमूने के आकार के साथ नहीं दोहराता हूं ।
थोड़ी देर बाद मैं यह निष्कर्ष निकालता हूं कि मेरी 2011 की आबादी का अधिक या कम अच्छा प्रतिनिधित्व पाने के लिए पूर्ण न्यूनतम नमूना आकार है। चूँकि मैं अपनी ब्याज की जनसंख्या जानता हूं (सभी मांगें जो वर्तमान दिन और अतीत में एक दिन के बीच समाप्त होती हैं) में कम विचरण होता है मैं सुरक्षित रूप से n = 45 से बूटस्ट्रैप के नमूने के आकार का उपयोग कर सकता हूं । (परोक्ष रूप से, n = 45 मेरे समय के आकार को निर्धारित करता है: 45 मांगों को पूरा करने के लिए आवश्यक समय ।)
यह संक्षेप में, मेरा विचार है। लेकिन चूंकि मैं एक सांख्यिकीविद् नहीं हूं, लेकिन एक इंजीनियर जिसके आँकड़े के पाठ योनर के दिनों में हुए थे, मैं इस संभावना को बाहर नहीं कर सकता कि मैंने सिर्फ बहुत सारी बकवास उत्पन्न की है :-)। आप लोग क्या सोचते हैं? अगर मेरा आधार समझ में आता है, तो क्या मुझे 10 से बड़ा चुनने की जरूरत है , या छोटा? आपके उत्तरों के आधार पर (क्या मुझे शर्मिंदगी महसूस करने की आवश्यकता है या नहीं? :-) मैं कुछ और चर्चा विचार पोस्ट करूंगा।
पहले उत्तर पर प्रतिक्रिया उत्तर देने के लिए धन्यवाद, आपका उत्तर मेरे लिए विशेष रूप से पुस्तक लिंक के लिए बहुत उपयोगी था।
लेकिन मुझे डर है कि जानकारी देने की मेरी कोशिश में मैंने अपने सवाल को पूरी तरह से दबा दिया। मुझे पता है कि बूटस्ट्रैप के नमूने जनसंख्या के नमूने के वितरण में लगते हैं। मैं आपका पूरी तरह से पालन करता हूं लेकिन ...
आपके मूल जनसंख्या नमूने के लिए पर्याप्त रूप से निश्चित होना चाहिए कि आपकी जनसंख्या के नमूने का वितरण जनसंख्या के 'वास्तविक' वितरण के साथ बराबर (बराबर) हो।
यह केवल इस बात पर विचार है कि यह निर्धारित करने के लिए कि आपके मूल नमूने का आकार कितना बड़ा होना चाहिए ताकि नमूना वितरण जनसंख्या वितरण के साथ मेल खाता हो।
मान लीजिए कि आपके पास एक द्विपाद जनसंख्या वितरण है और एक शीर्ष दूसरे की तुलना में बहुत बड़ा है। यदि आपका नमूना आकार 5 है तो मौका बड़ा है कि सभी 5 इकाइयों का मूल्य बड़े शीर्ष के बहुत करीब है (मौका बेतरतीब ढंग से एक इकाई आकर्षित करने का मौका सबसे बड़ा है)। इस मामले में आपका नमूना वितरण विक मोनोमॉडल दिखता है।
एक सौ के आकार के साथ मौका है कि आपके नमूना वितरण भी bimodal है एक बहुत बड़ा है !! बूटस्ट्रैपिंग के साथ परेशानी यह है कि आपके पास केवल एक नमूना है (और आप उस नमूने पर आगे निर्माण करते हैं)। यदि नमूना वितरण वास्तव में जनसंख्या वितरण के साथ मेल नहीं खाता है तो आप मुसीबत में हैं। यह सिर्फ एक नमूना है कि आप अपने नमूना आकार को असीम रूप से बड़ा करने के लिए बिना कम से कम 'खराब नमूना वितरण' होने की संभावना बना सकते हैं।