मिउरा द्वारा दिया गया उत्तर पूरी तरह से सही नहीं है इसलिए मैं इस पुराने प्रश्न का उत्तर देने के लिए जवाब दे रहा हूं:
(2)। ये बहुत अलग चीजें हैं। अनुभवजन्य सीडीएफ सीडीएफ (वितरण) का एक अनुमान है जो डेटा उत्पन्न करता है। संक्षेप में, यह असतत CDF जो प्रदान करती है संभावना है 1/n प्रत्येक मनाया डेटा बात करने के , प्रत्येक के लिएएक्स। सच CDF को यह आकलनकर्ता converges: एफ (एक्स)→एफ(एक्स)=पी(एक्समैं≤एक्स)प्रत्येक के लिए लगभग निश्चित रूप सेएक्स(वास्तव में समान रूप से)।F^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x
एक सांख्यिकीय का नमूना वितरण इसके बजाय उस सांख्यिकीय का वितरण है जिसे आप दोहराया प्रयोग के तहत देखने की उम्मीद करेंगे। यही है, आप एक बार अपना प्रयोग करते हैं और डेटा एक्स 1 , … , एक्स एन इकट्ठा करते हैं । T आपके डेटा का एक कार्य है: T = T ( X 1 , … , X n ) । अब, आप प्रयोग, और कलेक्ट डेटा को दोहराने लगता है एक्स ' 1 , ... , एक्स ' एन । नया नमूना पर पुन: गणना की टी देता है टी 'TX1,…,XnTT=T(X1,…,Xn)X′1,…,X′n । यदि हम 100 नमूने एकत्र करते हैं तो हमारे पास T के 100 अनुमान होंगे। की इन टिप्पणियों टी के नमूने वितरण फार्म टी । यह एक सच्चा वितरण है। प्रयोगों की संख्या अनंत को करने के लिए अपने मतलब converges चला जाता है के रूप में ई ( टी ) और करने के लिए अपने विचरण वी एक आर ( टी ) ।T′=T(X′1,…,X′n)TTTE(T)Var(T)
सामान्य तौर पर हम इस तरह के प्रयोगों को नहीं दोहराते हैं, हम कभी केवल का एक उदाहरण देखते हैं । एक एकल अवलोकन से टी का विचलन क्या है यह पता लगाना बहुत मुश्किल है यदि आप टी की प्राथमिकता वाले अंतर्निहित संभावना फ़ंक्शन को नहीं जानते हैं । बूटस्ट्रैपिंग यह अनुमान लगाने का एक तरीका है कि कृत्रिम रूप से "नए प्रयोगों" द्वारा टी का नमूना वितरण, जिस पर टी के नए उदाहरणों की गणना करना है । प्रत्येक नया नमूना वास्तव में मूल डेटा से सिर्फ एक नमूना है। यह आपको मूल डेटा में रहस्यमय और पूरी तरह से भयानक से अधिक जानकारी प्रदान करता है।TTTTT
(1)। आप सही हैं - आप ऐसा नहीं करेंगे। लेखक पैरामीट्रिक बूटस्ट्रैप को "ऐसा करने के रूप में वर्णन करता है कि आप क्या करेंगे यदि आप वितरण को जानते हैं", लेकिन वितरण समारोह के एक बहुत अच्छे अनुमानक को प्रतिस्थापित करने के लिए प्रेरित करने की कोशिश कर रहा है - अनुभवजन्य सीएफडी।
उदाहरण के लिए, मान लें कि आप जानते हैं कि आपके परीक्षण सांख्यिकीय को सामान्य रूप से शून्य, विचरण एक के साथ वितरित किया जाता है। आप टी के नमूना वितरण का अनुमान कैसे लगाएंगे ? खैर, जब से आप वितरण को जानते हैं, नमूना वितरण का अनुमान लगाने के लिए एक मूर्खतापूर्ण और निरर्थक तरीका यह है कि आप 10,000 या तो मानक सामान्य यादृच्छिक चर उत्पन्न करने के लिए R का उपयोग करें, फिर उनका नमूना माध्य और विचरण करें, और इनका उपयोग माध्य के अनुमान के रूप में करें और टी के नमूना वितरण का विचरण ।TTT
यदि हम टी के मापदंडों को नहीं जानते हैं , लेकिन हम जानते हैं कि यह सामान्य रूप से वितरित किया जाता है, तो हम इसके बजाय क्या कर सकते हैं, उत्पन्न होता है 10,000 या तो अनुभवजन्य सीएफडी से नमूने, उनमें से प्रत्येक पर टी की गणना करें, फिर नमूना मतलब लें और इन 10,000 के विचरण टी है, और उम्मीद मूल्य और के विचरण के हमारे अनुमान के रूप में उपयोग टी । चूँकि अनुभवजन्य cdf सच्चे cdf का एक अच्छा अनुमानक है, इसलिए नमूना मापदंडों को सच्चे मापदंडों में परिवर्तित करना चाहिए। यह पैरामीट्रिक बूटस्ट्रैप है: आप जिस मॉडल का अनुमान लगाना चाहते हैं उस पर एक मॉडल प्रस्तुत करते हैं। मॉडल एक पैरामीटर द्वारा अनुक्रमित, जैसे ( μ , σ )TTTT(μ,σ), जो कि आप अनुमान लगाते हैं कि बार-बार सैंपल से एफ.आई.डी.एफ.
(3)। नॉनपामेट्रिक बूटस्ट्रैप के लिए आपको एक प्राथमिकता जानने की भी आवश्यकता नहीं है कि सामान्य रूप से वितरित किया गया है। इसके बजाय, आप बस ecdf से बार-बार नमूने खींचते हैं, और प्रत्येक पर टी की गणना करते हैं। जब आपने 10,000 या इतने सैंपल लिए हैं और 10,000 T s की गणना की है , तो आप अपने अनुमानों का हिस्टोग्राम कर सकते हैं। यह टी के नमूना वितरण का एक दृश्य हैTTTT। गैरपारंपरिक बूटस्ट्रैप आपको यह नहीं बताएगा कि नमूना वितरण सामान्य है, या गामा, या इसी तरह, लेकिन यह आपको नमूना वितरण (आमतौर पर) के रूप में आवश्यकतानुसार सटीक अनुमान लगाने की अनुमति देता है। यह कम धारणा बनाता है और पैरामीट्रिक बूटस्ट्रैप की तुलना में कम जानकारी प्रदान करता है। यह कम सटीक है जब पैरामीट्रिक धारणा सच है लेकिन अधिक सटीक है जब यह गलत है। आपके द्वारा सामना की जाने वाली प्रत्येक स्थिति में आप किसका उपयोग करते हैं यह पूरी तरह से संदर्भ पर निर्भर करता है। मोटे तौर पर अधिक लोग nonparametric बूटस्ट्रैप से परिचित हैं, लेकिन अक्सर एक कमजोर पैरामीट्रिक धारणा अनुमान लगाने के लिए पूरी तरह से अट्रैक्टिव मॉडल बनाती है, जो प्यारा है।