ऐसे उदाहरण क्या हैं जहां "भोली बूटस्ट्रैप" विफल रहता है?


86

मान लीजिए कि मेरे पास अज्ञात या जटिल वितरण से नमूना डेटा का एक सेट है, और मैं डेटा के सांख्यिकीय पर कुछ निष्कर्ष निकालना चाहता हूं । मेरे डिफ़ॉल्ट झुकाव बस प्रतिस्थापन के साथ बूटस्ट्रैप नमूनों की एक गुच्छा उत्पन्न, और मेरे आंकड़ा गणना करने के लिए है प्रत्येक बूटस्ट्रैप नमूने पर के लिए एक अनुमान के अनुसार वितरण बनाने के लिए ।टी टीTTT

ऐसे कौन से उदाहरण हैं जहां यह एक बुरा विचार है?

उदाहरण के लिए, एक मामला जहां भोलेपन से इस प्रदर्शन को विफल किया जाता है, अगर मैं समय श्रृंखला डेटा पर बूटस्ट्रैप का उपयोग करने की कोशिश कर रहा हूं (यह कहने के लिए कि क्या मेरे पास महत्वपूर्ण ऑटोक्रॉलेशन है या नहीं)। ऊपर वर्णित भोली बूटस्ट्रैप ( मेरी मूल श्रृंखला से प्रतिस्थापन के साथ नमूना द्वारा nth बूटस्ट्रैप नमूना श्रृंखला के वें डेटापॉइंट को जनरेट करना) (मुझे लगता है) बीमार होगा, क्योंकि यह मेरी मूल समय श्रृंखला में संरचना की उपेक्षा करता है, और इसलिए हम ब्लॉक बूटस्ट्रैप जैसी कट्टर बूटस्ट्रैप तकनीक प्राप्त करें।i

इसे दूसरे तरीके से रखने के लिए, "प्रतिस्थापन के साथ नमूनाकरण" के अलावा बूटस्ट्रैप में क्या है?


यदि आप आईआईडी डेटा के माध्य के लिए अनुमान लगाना चाहते हैं, तो बूटस्ट्रैप एक महान उपकरण है। बाकी सब कुछ संदिग्ध है, और कमजोर अभिसरण के मामले-दर-मामले प्रमाण की आवश्यकता है।
StasK

जवाबों:


67

यदि ब्याज की मात्रा, आमतौर पर वितरण का एक कार्य है, यथोचित रूप से चिकनी है और आपका डेटा iid है, तो आप आमतौर पर बहुत सुरक्षित क्षेत्र में हैं। बेशक, ऐसी अन्य परिस्थितियां हैं जब बूटस्ट्रैप भी काम करेगा।

बूटस्ट्रैप का "विफल" होने का क्या अर्थ है

मोटे तौर पर, बूटस्ट्रैप का उद्देश्य ब्याज के आंकड़ों के लिए अनुमानित नमूना वितरण का निर्माण करना है। यह पैरामीटर के वास्तविक आकलन के बारे में नहीं है। इसलिए, यदि ब्याज की आँकड़ा (कुछ rescaling और केंद्र के तहत) और को वितरण में, हम अपने बूटस्ट्रैप वितरण के लिए चाहेंगे के वितरण में । यदि हमारे पास यह नहीं है, तो हम किए गए अनुमानों पर भरोसा नहीं कर सकते हैं।X^nX^nXX

विहित जब बूटस्ट्रैप असफल हो सकता है, यहां तक कि एक आईआईडी ढांचे में की उदाहरण है जब एक चरम आदेश आँकड़ों के नमूने वितरण अनुमान लगाने के लिए कोशिश कर रहा है। नीचे एक संक्षिप्त चर्चा है।

एक से एक यादृच्छिक नमूने का अधिकतम क्रम सांख्यिकीय वितरणU[0,θ]

चलो पर आईआईडी वर्दी यादृच्छिक चर का एक अनुक्रम हो । Let । का वितरण (ध्यान दें कि एक बहुत ही सरल तर्क से, यह वास्तव में उस को प्रायिकता में दिखाता है , और यहां तक ​​कि, लगभग निश्चित रूप से , यदि यादृच्छिक चर सभी एक ही स्थान पर परिभाषित किए गए हैं।)X1,X2,[0,θ]X(n)=max1knXkX(n)

P(X(n)x)=(x/θ)n.
X(n)θ

एक प्राथमिक गणना से पैदावार या, दूसरे शब्दों में, वितरण में यादृच्छिक चर के साथ माध्य में परिवर्तित करता है ।

P(n(θX(n))x)=1(1xθn)n1ex/θ,
n(θX(n))θ

अब, हम एक (भोली) फार्म बूटस्ट्रैप के वितरण का अनुमान resampling द्वारा प्रतिस्थापन के साथ पाने के लिए और वितरण का उपयोग कर of सशर्त ।n(θX(n))X1,,XnX1,,Xnn(X(n)X(n))X1,,Xn

लेकिन, उस को प्रायिकता के साथ , और इसलिए बूटस्ट्रैप वितरण शून्य पर एक बिंदु द्रव्यमान है, यहां तक ​​कि असमान रूप से होने के बावजूद तथ्य यह है कि वास्तविक सीमित वितरण निरंतर है।X(n)=X(n)1(11/n)n1e1

अधिक स्पष्ट रूप से, हालांकि सही सीमा वितरण का मतलब मीन साथ घातांक है , सीमित बूटस्ट्रैप वितरण आकार शून्य बिंदु पर एक बड़े पैमाने पर स्थित है । के वास्तविक मूल्य से स्वतंत्र है । पर्याप्त रूप से बड़े लेने से , हम किसी भी निश्चित अंतराल लिए मनमानी वितरण को सही सीमित करने की संभावना बना सकते हैं , फिर भी बूटस्ट्रैप ( अभी भी !) रिपोर्ट करेगा कि इस अंतराल में कम से कम 0.632 अक्षमता है! इससे यह स्पष्ट होना चाहिए कि बूटस्ट्रैप इस सेटिंग में मनमाना व्यवहार कर सकता है ।θ1e10.632 θθ[0,ε)

संक्षेप में, बूटस्ट्रैप इस मामले में (बुरी तरह से) विफल रहता है। पैरामीटर स्पेस के किनारे पर मापदंडों के साथ काम करते समय चीजें गलत हो जाती हैं।

सामान्य यादृच्छिक चर के नमूने से एक उदाहरण

आश्चर्यजनक रूप से सरल परिस्थितियों में बूटस्ट्रैप की विफलता के अन्य समान उदाहरण हैं।

एक नमूना पर विचार करें से जहां लिए पैरामीटर स्थान तक सीमित है । इस मामले में MLE । फिर से, हम बूटस्ट्रैप अनुमान । फिर से, यह दिखाया जा सकता है कि (देखे गए नमूने पर सशर्त) समान सीमित वितरण को रूप में परिवर्तित नहीं करता है। ।X1,X2,N(μ,1)μ[0,)X^n=max(X¯,0)X^n=max(X¯,0)n(X^nX^n)n(X^nμ)

विनिमेय सरणियाँ

शायद सबसे नाटकीय उदाहरणों में से एक एक विनिमेय सरणी के लिए है। Let यादृच्छिक चर का एक सरणी हो, जैसे कि क्रमपरिवर्तन के प्रत्येक जोड़े के लिए और , सरणियाँ और समान संयुक्त वितरण है। यानी, पंक्तियों और स्तंभों की अनुमति देना वितरण को अपरिवर्तित रखता है। (आप उदाहरण के रूप में प्रति सेल एक अवलोकन के साथ दो-तरफ़ा यादृच्छिक प्रभाव मॉडल के बारे में सोच सकते हैं, हालांकि मॉडल बहुत अधिक सामान्य है।)Y=(Yij)PQYPYQY

मान लीजिए कि हम माध्य लिए एक विश्वास अंतराल का अनुमान लगाना चाहते हैं ऊपर वर्णित विनिमेय धारणा के कारण कोशिकाएं समान होनी चाहिए)।μ=E(Yij)=E(Y11)

मैककूल (2000) ने इस तरह के एक सरणी बूटस्ट्रैपिंग के दो अलग-अलग प्राकृतिक (यानी भोले) तरीकों पर विचार किया। उनमें से किसी को भी नमूना मतलब सही के लिए स्पर्शोन्मुख विचरण नहीं मिलता है। वह एक-तरफ़ा विनिमेय सरणी और रैखिक प्रतिगमन के कुछ उदाहरणों पर भी विचार करता है।

संदर्भ

दुर्भाग्य से, विषयवस्तु निर्विवाद है, इसलिए इनमें से कोई भी विशेष रूप से आसान नहीं है।

पी। बिकेल और डी। फ्रीडमैन, बूटस्ट्रैप के लिए कुछ स्पर्शोन्मुख सिद्धांतएन। स्टेट। , वॉल्यूम। 9, नहीं। 6 (1981), 1196–1217।

DWK एंड्रयूज, बूटस्ट्रैप की असंगतता जब एक पैरामीटर पैरामीटर स्पेस की सीमा पर होता है , इकोनोमेट्रिक , वॉल्यूम। 68, नं। 2 (2000), 399–405।

पी। मैक्कुलग, रेज़ामापलिंग और विनिमेय सरणियाँ , बर्नौली , वॉल्यूम। 6, नहीं। 2 (2000), 285301।

ईएल लेहमैन और जेपी रोमानो, सांख्यिकीय सांख्यिकीय परीक्षण , 3। एड।, स्प्रिंगर (2005)। [अध्याय १५: जनरल लार्ज सैंपल मेथड्स]


आदेश आँकड़ों बूटस्ट्रैप का व्यवहार मुझे उचित लगता है, यह देखते हुए कि घातीय वितरण शून्य पर एक समान "बिंदु द्रव्यमान" है - घातांक वितरण का मोड 0 है, इसलिए यह उचित लगता है कि संभावना गैर-शून्य पर होनी चाहिए सबसे अधिक संभावना मूल्य! बूटस्ट्रैप संभवतः ज्यामितीय वितरण की तरह कुछ और होगा जो घातांक का असतत एनालॉग है। मैं इस एक यहाँ बूटस्ट्रैप की "विफलता" के रूप में नहीं ले जाएगा - के लिए की अनुमानित मात्रा हमेशा उचित अंतराल में निहित हैθθX(n)
probabilityislogic

1
@कार्डिनल - एसिम्प्टोटिक वितरण उचित बेंचमार्क नहीं है - जब तक कि आपके पास एक अनन्त नमूना न हो। बूटस्ट्रैप वितरण की तुलना परिमित नमूना वितरण से की जानी चाहिए जिसे यह अनुमानित रूप से डिज़ाइन किया गया था। आप जो दिखाना चाहते हैं, वह यह है कि बूटस्ट्रैप पुनरावृत्तियों की संख्या अनंत तक जाती है, बूटस्ट्रैप वितरण परिमित नमूना वितरण में परिवर्तित हो जाता है । दे एक अनुमानित समाधान एक सटीक एक नहीं है। n
प्रोबेबिलिसलॉजिक

5
@कार्डिनल +1, मैंने पहले प्रश्न को बढ़ा दिया है, लेकिन मैं सिर्फ लेखों के बहुत अच्छे उत्तर, उदाहरण और लिंक के लिए धन्यवाद देना चाहता हूं।
एमपिकटस

@probabilityislogic, निश्चित रूप से स्पर्शोन्मुख सिद्धांत के सामान्य अनुप्रयोग में अभिसरण दर पर निर्भर करता है, अगर यह धीमा है, तो यह लागू नहीं है। लेकिन आपके पास तब प्रदर्शित करना है कि यह दर धीमी है, क्योंकि मुझे संदेह है कि समान रूप से नमूना आकार 100 के वितरण के साथ आप समस्याओं का सामना करेंगे।
एमपिकटस

3
@probabilityislogic, सबसे पहले, मैंने केवल आपके दो सबसे हालिया टिप्पणियों के उत्तरार्ध को देखा। पूर्व को संबोधित करने के लिए, आप ऊपर दिए गए अनुभाग के पहले दो वाक्यों को "फेलस्ट्रैप के लिए 'विफल' होने का क्या अर्थ है, यह स्पष्ट रूप से संबोधित किया गया है। बूटस्ट्रैप पैरामीटर का अनुमान लगाने के बारे में नहीं है। हम मानते हैं कि हमारे पास वांछित पैरामीटर (इस मामले में, ठीक काम करता है) का अनुमान लगाने का एक अच्छा तरीका है । बूटस्ट्रैप पैरामीटर के वितरण के बारे में कुछ जानने के बारे में है ताकि हम अनुमान लगा सकें। यहां, बूटस्ट्रैप को वितरण ( बहुत! ) गलत है। X(n)
कार्डिनल

8

निम्नलिखित पुस्तक में एक अध्याय (Ch.9) है जो "जब बूटस्ट्रैपिंग विफलताओं के साथ-साथ विफलताओं के लिए उपचार" के लिए समर्पित है:

एमआर चेरिक, बूटस्ट्रैप के तरीके: चिकित्सकों और शोधकर्ताओं के लिए एक गाइड , 2 एड। होबोकेन एनजे: विली-इंटेरसेंस, 2008।

विषय हैं:

  1. नमूना आकार का बहुत छोटा
  2. अनंत क्षणों के साथ वितरण
  3. चरम मूल्यों का अनुमान लगाना
  4. सर्वेक्षण का नमूना
  5. डेटा अनुक्रम जो M -निर्भर हैं
  6. अस्थिर स्वायत्त प्रक्रियाएं
  7. लंबी दूरी की निर्भरता

1
क्या आपने इस टिप्पणी को इस सूत्र में उत्तर के लिए देखा है ? संयोग से, वह टिप्पणी चेरिक की पुस्तक के लिए एक अमेज़ॅन पेज से लिंक करती है; पाठक समीक्षाएँ ज्ञानवर्धक हैं।
whuber

@ शुभचिंतक, मैंने उस टिप्पणी पर ध्यान नहीं दिया। क्या मुझे अपना उत्तर हटा देना चाहिए?
सदिघद

1
क्योंकि आपका उत्तर टिप्पणी में संदर्भ की तुलना में अधिक विस्तृत है, इसलिए इसका संभावित रूप से मूल्य है: लेकिन एसई नीतियों और उद्देश्यों को ध्यान में रखते हुए, यह देखना अच्छा होगा कि आप इस पुस्तक की सिफारिश क्यों कर रहे हैं या कुछ स्पष्टीकरण के साथ प्रवर्धित हैं - और भी बेहतर - इसमें जानकारी का सारांश शामिल करें। अन्यथा यह थोड़ा जुड़ जाता है और इसे हटा दिया जाना चाहिए या प्रश्न में टिप्पणी में बदल दिया जाना चाहिए।
whuber

1

अनुभवहीन बूटस्ट्रैप नमूना आकार के बड़े होने पर निर्भर करता है, ताकि डेटा के लिए अनुभवजन्य सीडीएफ "सच" सीडीएफ के लिए एक अच्छा अनुमान हो। यह सुनिश्चित करता है कि अनुभवजन्य सीडीएफ से नमूना "सच" सीडीएफ से नमूना लेना बहुत पसंद है। चरम मामला तब है जब आपने केवल एक डेटा बिंदु का नमूना लिया है - बूटस्ट्रैपिंग यहां कुछ भी प्राप्त नहीं करता है। इस अध: पतन मामले के करीब आते ही यह और बेकार हो जाएगा।

बूटस्ट्रैपिंग भोली जरूरी बार श्रृंखला विश्लेषण में असफल नहीं होगी (हालांकि यह अक्षम हो सकती है) - यदि आप एक प्रवृत्ति घटक के लिए निरंतर समय (जैसे एक किंवदंती बहुपद) के आधार कार्यों का उपयोग करके श्रृंखला को मॉडल करते हैं, और चक्रीय के लिए निरंतर समय के साइन और कोसाइन फ़ंक्शन घटकों (प्लस सामान्य शोर त्रुटि अवधि)। तो फिर तुम बस क्या कभी-कभी आप संभावना समारोह में नमूना है करने के लिए होता है। यहां बूटस्ट्रैपिंग के लिए कोई आपदा नहीं है।

किसी भी ऑटो-सहसंबंध या एआरआईएमए मॉडल में ऊपर दिए गए इस प्रारूप में एक प्रतिनिधित्व है - यह मॉडल उपयोग करने के लिए बस आसान है और मुझे समझना और व्याख्या करना आसान है (साइन और कोसाइन कार्यों में चक्र को समझना आसान है, एआरएम मॉडल के गुणांक को समझना मुश्किल है)। उदाहरण के लिए, ऑटो-सहसंबंध समारोह एक समय श्रृंखला के पावर स्पेक्ट्रम का उलटा फूरियर रूपांतरण है।


@probabilityislogic -1, मैंने गलती से पहले उत्तर को दोष दिया (ओपेरा मिनी को दोष दिया) इसलिए मुझे इसे डाउनवोट करने में सक्षम होने के लिए संपादित करना पड़ा, मुझे इस तरह की रणनीति का उपयोग करने के लिए खेद है। मैंने यह केवल इसलिए किया क्योंकि मुझे पहली बार में जवाब पसंद नहीं आया, लेकिन मैंने यह नहीं छोड़ा क्योंकि मैं अपनी दलीलें तैयार करना चाहता था, जो मैं निम्नलिखित टिप्पणी में दूंगा।
एमपिकैटस

1
@probabilityislogic, समय-श्रृंखला प्रक्रियाओं के लिए समय महत्वपूर्ण भूमिका निभाता है, इसलिए वेक्टर का वितरण अलग है । भोले बूटस्ट्रैप में की गई रेज़मैपलिंग इस संरचना को नष्ट कर देती है, इसलिए उदाहरण के लिए यदि आप AR (1) मॉडल को फिट करने का प्रयास करते हैं, तो बाद आप प्राप्त कर सकते हैं कि आप को रूप में फिट करने का प्रयास कर रहे हैं , जो है स्वाभाविक नहीं लगता। यदि आप "बूटस्ट्रैपिंग टाइम सीरीज़" के लिए गूगल करते हैं , तो दूसरा लेख इस बात का उदाहरण देता है कि समय श्रृंखला के विचलन का अनुमान कैसे लगाया गया है ...(Xt,Xt+1)(Xt+1,Xt)Y10ρY15
एमपीटीटीएस

2
@probabilityislogic, यह आप की भोली बूटस्ट्रैप अनुमान के लिए अपने जवाब में अपने विचार को प्रदर्शित करने के लिए संभव हो जाएगा एआर (1) मॉडल में ? मुझे नहीं लगता कि यह संभव है, इसलिए पतन का मूल कारण है। मुझे गलत साबित होने में खुशी होगी। ρYt=ρYt1+ut
mpiktas

1
@probabilityislogic, और? उस मामले में का अनुमान क्या होगा ? मूसलाधार के लिए मुझे खेद है, लेकिन मैं वास्तव में यह नहीं देखता कि आप कैसे दिखा सकते हैं कि भोला बूटस्ट्रैप इस मामले में विफल नहीं होगा। rho
14

4
यहाँ मेरी पुस्तक में एक अध्याय है जब बूटस्ट्रैप विफल रहता है और यह भी अध्याय है कि बूटस्ट्रैप को समय श्रृंखला में कैसे लागू किया जाता है। समय श्रृंखला के लिए बूटस्ट्रैप को मॉडल आधारित दृष्टिकोण में एक मॉडल से अवशिष्ट पर लागू किया जा सकता है। अन्य गैरपारंपरिक समय डोमेन दृष्टिकोण ब्लॉक बूटस्ट्रैप है जिसके कई प्रकार हैं।
माइकल चेरिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.