एक आकलनकर्ता के नमूना वितरण को लगभग कितनी अच्छी तरह बूटस्ट्रैपिंग करता है?


29

हाल ही में बूटस्ट्रैप का अध्ययन करने के बाद, मैं एक वैचारिक प्रश्न के साथ आया जो अभी भी मुझे पहेली बना रहा है:

आप एक जनसंख्या है, और आप एक जनसंख्या विशेषता, यानी जानना चाहता हूँ , जहाँ मैं का उपयोग आबादी का प्रतिनिधित्व करने के लिए। उदाहरण के लिए यह जनसंख्या का मतलब हो सकता है। आमतौर पर आप आबादी से सभी डेटा प्राप्त नहीं कर सकते। तो आप जनसंख्या से आकार का एक नमूना खींचते हैं । चलो मान लेते हैं कि आपके पास सादगी के लिए iid नमूना है। फिर आप अपना अनुमानक । आप उपयोग करना चाहते हैं के बारे में अनुमान बनाने के लिए है, तो आप की परिवर्तनशीलता जानना चाहते हैं ।पी θ एक्स एन θ = जी ( एक्स ) θ θ θθ=g(P)PθXNθ^=g(X)θ^θθ^

सबसे पहले, का सही नमूना वितरण है । वैचारिक रूप से, आप जनसंख्या से कई नमूने खींच सकते हैं (उनमें से प्रत्येक का आकार )। हर बार जब आप एक अलग नमूना होगा, तब से आपको हर बार अहसास होगा। फिर अंत में, आप के सही वितरण को पुनर्प्राप्त करने में सक्षम होंगे । ठीक है, यह कम से कम के वितरण के आकलन के लिए वैचारिक बेंचमार्क है । मुझे इसे पुनर्स्थापित करने दें: अंतिम लक्ष्य के सही वितरण का अनुमान लगाने या अनुमानित करने के लिए विभिन्न विधि का उपयोग करना है । एन θ =जी(एक्स)θ^Nθ^=g(X) θθ^θ^θ^

अब, यहाँ प्रश्न आता है। आमतौर पर, आपके पास केवल एक नमूना होता है जिसमें डेटा बिंदु होते हैं। फिर आप कई बार इस नमूने से मिलते-जुलते हैं, और आप एक बूटस्ट्रैप वितरण के साथ आएंगे । मेरा प्रश्न यह है: यह बूटस्ट्रैप वितरण के सही नमूना वितरण के कितना करीब है ? क्या इसकी मात्रा निर्धारित करने का कोई तरीका है?एन θXNθ^θ^


1
इस अत्यधिक संबंधित प्रश्न में अतिरिक्त जानकारी का खजाना है, इस प्रश्न को संभवतः एक डुप्लिकेट बनाने के लिए।
शीआन

सबसे पहले, मेरे सवालों के जवाब देने के लिए आप सभी को तुरंत धन्यवाद। यह पहली बार है जब मैं इस वेबसाइट का उपयोग कर रहा हूं। मुझे उम्मीद नहीं थी कि मेरा सवाल ईमानदारी से किसी का ध्यान आकर्षित करेगा। मेरा यहाँ एक छोटा सा सवाल है, 'ओपी' क्या है? @
सिल्वरफ़िश

@Chen जिन: "ओपी" = मूल पोस्टर (यानी आप!)। एक संक्षिप्त नाम के उपयोग के लिए माफी, जिसे मैं स्वीकार करता हूं, संभावित रूप से भ्रमित है।
सिल्वर फिश

1
मैंने शीर्षक इसलिए संपादित किया है कि यह आपके कथन से अधिक निकटता से मेल खाता है कि "मेरा प्रश्न यह है: यह के वास्तविक वितरण के कितने करीब है ? क्या इसे परिमाणित करने का कोई तरीका है?" यदि आप यह नहीं सोचते कि मेरा संपादन आपके इरादे को दर्शाता है, तो इसे वापस करने के लिए स्वतंत्र महसूस करें। θ^
सिल्वरफिश

@Silverfish बहुत बहुत धन्यवाद। जब मैं इस पोस्टर को शुरू करता हूं, तो मैं वास्तव में अपने प्रश्न के बारे में निश्चित नहीं हूं। यह नया शीर्षक अच्छा है।
केविनकिम

जवाबों:


20

सूचना सिद्धांत में यह निर्धारित करने का विशिष्ट तरीका है कि केएल-विचलन का उपयोग करने के लिए एक दूसरे को "बंद" कैसे किया जाए

आइए इसे अत्यधिक तिरछी लंबी पूंछ वाले डेटासेट के साथ चित्रित करने का प्रयास करें - ह्यूस्टन हवाई अड्डे ( विमान पैकेज से) में विमान के आगमन की देरी । Let the थी मतलब अनुमानक हो। सबसे पहले, हम का नमूना वितरण पाते हैं , और फिर का बूटस्ट्रैप वितरण θ θθ^θ^θ^

यहाँ डेटासेट है:

यहां छवि विवरण दर्ज करें

सही मतलब 7.09 मिनट है।

सबसे पहले, हम एक निश्चित संख्या में नमूने के नमूना वितरण को प्राप्त करने के लिए करते हैं , फिर हम एक नमूना लेते हैं और उससे कई बूटस्ट्रैप नमूने लेते हैं।θ^

उदाहरण के लिए, आइए नमूना आकार 100 और 5000 पुनरावृत्ति के साथ दो वितरणों पर एक नज़र डालें। हम नेत्रहीन देखते हैं कि ये वितरण काफी अलग हैं, और KL विचलन 0.48 है।

यहां छवि विवरण दर्ज करें

लेकिन जब हम नमूना आकार को 1000 तक बढ़ा देते हैं, तो वे अभिसरण शुरू करते हैं (केएल विचलन 0.11 है)

यहां छवि विवरण दर्ज करें

और जब नमूना आकार 5000 है, तो वे बहुत करीब हैं (केएल विचलन 0.01 है)

यहां छवि विवरण दर्ज करें

यह, निश्चित रूप से, इस बात पर निर्भर करता है कि आपको कौन सा बूटस्ट्रैप नमूना मिलता है, लेकिन मेरा मानना ​​है कि आप नमूना आकार को बढ़ाते हुए केएल विचलन को नीचे ले जा सकते हैं, और इस प्रकार बूटस्ट्रैप डिस्ट्रिब्यूशन ऑफ़ सैंपल वितरण के संदर्भ में केएल डाइवर्जेंस का। सुनिश्चित करने के लिए, आप कई बूटस्ट्रैप करने की कोशिश कर सकते हैं और केएल विचलन का औसत ले सकते हैं। θθ^θ^

यहाँ इस प्रयोग का R कोड है: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+1 और यह यह भी दर्शाता है कि किसी भी दिए गए नमूना आकार (जैसे 100) के लिए, बूटस्टैप पूर्वाग्रह बड़ा और अपरिहार्य हो सकता है।
अमीबा का कहना है कि मोनिका

θ^θ^N

NB=10B=10000θ^NBθ^

1
θ^B=10B=100001010000

1
F555FBFB

23

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n)n x
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
g(F^n)g(F^n)

यहां छवि विवरण दर्ज करेंFF^nn=100250FF^n

आगे का अपडेट: यहाँ अनुभवजन्य cdf से शुरू होने पर ट्यूब चित्र कैसा दिखता है: यहां छवि विवरण दर्ज करें


5
इस उत्तर का क्रूस यह है कि बूटस्ट्रैप काम करता है क्योंकि यह एक बड़ा-नमूना सन्निकटन है । मुझे नहीं लगता कि इस बिंदु पर पर्याप्त जोर दिया गया है
छायाकार

2
मेरा मतलब है, "सामान्य रूप से अक्सर पर्याप्त जोर दिया जाता है"
शैडोक्तल्कर

F^n=100

3
FnF

@ शीआन बहुत अच्छा! यह भी अच्छा होगा अगर 2 और 3 का आंकड़ा एक साथ एक आकृति में जोड़ा जा सकता है
केविनकिम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.