औसतन प्रत्येक बूटस्ट्रैप नमूने में लगभग दो तिहाई अवलोकनों का समावेश क्यों होता है?


42

मैं दावे के पार चला गया है कि प्रत्येक बूटस्ट्रैप नमूना (या जीता पेड़) औसतन लगभग शामिल होंगे 2/3 टिप्पणियों की।

मैं समझता हूँ कि नहीं की संभावना से किसी में चयनित होने n से ड्रॉ n नमूने के साथ प्रतिस्थापन है (11/n)n है, जो लगभग करने के लिए बाहर काम करता है 1/3 का चयन नहीं किया जा रहा है की संभावना को।

क्यों इस सूत्र हमेशा देता है के लिए एक गणितीय व्याख्या क्या है 1/3 ?


10
मेरा मानना ​​है कि यह बूटस्ट्रैप 632+ नियम में की उत्पत्ति है .632
गूँग - मोनिका

जवाबों:


29

limn(11/n)n=e1
e1=1/e1/3

यह बहुत छोटे n पर काम नहीं करता है n- जैसे n=2 , (11/n)n=14 । यह गुजरता है 13 पर n=6 से गुजरता है, 0.35 पर n=11 , और 0.366 द्वारा n=99 । एक बार जब आप n = 11 से आगे जाते हैं n=11, तो \ frac {1} {e} \ frac {1} {3}1e से बेहतर सन्निकटन होता है ।13

यहाँ छवि विवरण दर्ज करें

ग्रे धराशायी लाइन 13 ; लाल और ग्रे लाइन 1e

एक औपचारिक व्युत्पत्ति दिखाने के बजाय (जो आसानी से मिल सकती है), मैं क्यों (थोड़ा सा) अधिक सामान्य परिणाम रखता हूं, इसकी रूपरेखा (जो एक सहज, व्यावहारिक तर्क) देने जा रहा हूं:

ex=limn(1+x/n)n

(बहुत से लोग इस से जानकारी प्रदान परिभाषा के है, लेकिन आप इस तरह के रूप में सरल परिणामों से यह साबित कर सकते हैं परिभाषित करने के रूप में ।)exp(x)elimn(1+1/n)n

तथ्य 1: यह शक्तियों और घातांक के बारे में बुनियादी परिणामों से होता हैexp(x/n)n=exp(x)

तथ्य 2: जब बड़ा होता है, यह लिए श्रृंखला विस्तार से होता है ।nexp(x/n)1+x/nex

(मैं इनमें से प्रत्येक के लिए फुलर तर्क दे सकता हूं लेकिन मुझे लगता है कि आप उन्हें पहले से ही जानते हैं)

पदार्थ (2) में (1)। किया हुआ। (इसके लिए अधिक औपचारिक तर्क के रूप में काम करने के लिए कुछ काम करना होगा, क्योंकि आपको यह दिखाना होगा कि फैक्ट 2 में शेष शर्तें पावर ले जाने पर समस्या का कारण बनने के लिए पर्याप्त नहीं हैं । लेकिन यह अंतर्ज्ञान है। औपचारिक प्रमाण के बजाय।)n

[वैकल्पिक रूप से, पहले आदेश के लिए बस टेलर श्रृंखला को जाएं। एक दूसरा आसान तरीका यह है कि आप का द्विपद विस्तार लें और सीमा-दर-टर्म लें, यह दिखाते हुए कि यह श्रृंखला की शर्तें देता है। ।]exp(x/n)(1+x/n)nexp(x/n)

इसलिए यदि , बस स्थानापन्न ।ex=limn(1+x/n)nx=1

तुरंत, हमारे पास इस उत्तर के शीर्ष पर परिणाम है,limn(11/n)n=e1


जैसा कि गंग टिप्पणियों में बताते हैं, आपके प्रश्न का परिणाम 632 बूटस्ट्रैप नियम की उत्पत्ति है

जैसे देखें

एफ्रोन, बी और आर। तिब्शीरानी (1997),
"क्रॉस-वैलिडेशन पर सुधार: .632+ बूटस्ट्रैप विधि,"
जर्नल ऑफ द अमेरिकन स्टेटिस्टिकल एसोसिएशन वॉल्यूम। 92, नंबर 438. (जून), पीपी। 548-560


41

अधिक सटीक रूप से, प्रत्येक बूटस्ट्रैप नमूना (या बैगर्ड ट्री) में नमूने का ।11e0.632

आइए जाने कि बूटस्ट्रैप कैसे काम करता है। हमारे पास एक मूल नमूना है जिसमें आइटम हैं। हम इस मूल सेट से प्रतिस्थापन के साथ आइटम बनाते हैं जब तक कि हमारे पास आकार का एक और सेट ।x1,x2,xnnn

उस से, यह निम्नानुसार है कि पहले ड्रा पर किसी एक आइटम (जैसे, ) को चुनने की संभावना । इसलिए, उस आइटम को नहीं चुनने की संभावना । वह सिर्फ पहले ड्रॉ के लिए है; कुल ड्रॉ हैं, जो सभी स्वतंत्र हैं, इसलिए किसी भी ड्रॉ पर इस आइटम को चुनने की संभावना नहीं है ।x11n11nn(11n)n

अब, चलो सोचते हैं कि क्या होता है जब बड़ा और बड़ा हो जाता है। हम सीमा ले जा सकते हैं के रूप में अनंत की ओर चला जाता है, हमेशा की तरह पथरी चाल (या Wolfram Alpha) का उपयोग: nn

limn(11n)n=1e0.368

वह आइटम नहीं चुने जाने की संभावना है । आइटम को चुनने की संभावना खोजने के लिए इसे एक से घटाएं, जो आपको 0.632 देता है।


5

प्रतिस्थापन के साथ नमूनाकरण को द्विपद परीक्षणों के अनुक्रम के रूप में चित्रित किया जा सकता है जहां "सफलता" एक उदाहरण है जिसे चुना जा रहा है। उदाहरणों के मूल डेटासेट के लिए, "सफलता" की संभावना , और "विफलता" की संभावना । नमूने के आकार के लिए , एक उदाहरण का चयन करने के लिए बिल्कुल द्विपद वितरण द्वारा दिया जाता है:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

बूटस्ट्रैप नमूने के विशिष्ट मामले में, नमूना आकार , उदाहरणों की संख्या बराबर होता है । अप्रोचिनिटी दे रहे हैं, हमें मिलता है:bnn

limn(1n)x(n1n)nx(nx)=1ex!

यदि हमारा मूल डेटासेट बड़ा है, तो हम इस सूत्र का उपयोग इस संभावना की गणना करने के लिए कर सकते हैं कि एक उदाहरण बूटस्ट्रैप नमूने में बिल्कुल बार चुना गया है । के लिए , संभावना है , या लगभग । एक उदाहरण के कम से कम एक बार नमूना होने की संभावना इस प्रकार है ।xx=01/e0.36810.368=0.632

कहने की जरूरत नहीं है, मैंने पेन और पेपर का उपयोग करके इसे श्रमसाध्य रूप से प्राप्त किया, और वुल्फराम अल्फा का उपयोग करने पर भी विचार नहीं किया।


3

बस @ retsreg के जवाब में जोड़कर यह भी R में संख्यात्मक सिमुलेशन के माध्यम से काफी आसानी से प्रदर्शित किया जा सकता है:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

इसे आसानी से गिनकर देखा जा सकता है। कुल कितने संभव नमूने? n ^ n। कितने में एक विशिष्ट मूल्य नहीं है? (N-1) ^ n। एक नमूने की संभावना एक विशिष्ट मूल्य नहीं है - (1-1 / n) ^ n, जो सीमा में लगभग 1/3 है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.