क्या हम बूटस्ट्रैप नमूनों का उपयोग कर सकते हैं जो मूल नमूने से छोटे हैं?


12

मैं एन = 250 फर्मों और टी = 50 महीने के साथ पैनल डेटासेट से अनुमानित मापदंडों के लिए विश्वास अंतराल का अनुमान लगाने के लिए बूटस्ट्रैपिंग का उपयोग करना चाहता हूं। कलमन फ़िल्टरिंग और जटिल nonlinear अनुमान के उपयोग के कारण मापदंडों का अनुमान कम्प्यूटेशनल रूप से महंगा (गणना के कुछ दिन) है। इसलिए मूल नमूना से M = N = 250 फर्मों के नमूने (प्रतिस्थापन या सैकड़ों) (सैकड़ों या अधिक) के साथ ड्राइंग करना और मापदंडों का आकलन करना B समय कम्प्यूटेशनल रूप से अलग है, भले ही यह बूटस्ट्रैपिंग के लिए मूल विधि है।

इसलिए मैं बूटस्ट्रैप नमूनों के लिए छोटे M (जैसे 10) का उपयोग करने पर विचार कर रहा हूं (मूल रूप से N = 250 के पूर्ण आकार के बजाय), मूल फर्मों से प्रतिस्थापन के साथ बेतरतीब ढंग से खींचा गया है, और फिर बूट पैरामीटर का अनुमानित मॉडल covariance मैट्रिक्स को अपने साथ स्केल करें। (उदाहरण के लिए 1/25 से ऊपर) पूर्ण नमूने पर अनुमानित मॉडल मापदंडों के लिए सहसंयोजक मैट्रिक्स की गणना करने के लिए।1NM

वांछित आत्मविश्वास अंतराल को सामान्यता धारणा के आधार पर, या समान प्रक्रिया का उपयोग करके छोटे नमूने के लिए आनुभविक रूप से अनुमानित किया जा सकता है (उदाहरण के लिए ।1NM

क्या यह समाधान समझ में आता है? क्या इसके औचित्य के लिए सैद्धांतिक परिणाम हैं? इस चुनौती से निपटने के लिए कोई विकल्प?

जवाबों:


4

यह प्रश्न बहुत समय पहले पूछा गया था, लेकिन मैं भविष्य में किसी को भी पता चलने पर प्रतिक्रिया पोस्ट कर रहा हूं। संक्षेप में, इसका उत्तर हां में है: आप कई सेटिंग्स में ऐसा कर सकते हैं, और आप द्वारा नमूना आकार में परिवर्तन के लिए सही करने में उचित हैं । इस दृष्टिकोण को आमतौर पर आउट ऑफ बूस्ट्रैप कहा जाता है , और यह अधिकांश सेटिंग्स में काम करता है जो `` पारंपरिक '' बूटस्ट्रैप करता है, साथ ही कुछ सेटिंग्स जिसमें यह नहीं करता है।MNMN

ऐसा क्यों है कि कई बूटस्ट्रैप स्थिरता तर्क फॉर्म अनुमानक का उपयोग करते हैं , जहां यादृच्छिक चर हैं और के कुछ पैरामीटर हैं अंतर्निहित वितरण। उदाहरण के लिए, नमूना माध्य के लिए, और ।1N(TNμ)X1,,XNμTN=1Ni=1NXiμ=E(X1)

कई बूटस्ट्रैप सुसंगतता प्रमाण तर्क देते हैं कि, , कुछ परिमित नमूना और संबंधित बिंदु अनुमान , जहां वास्तविक अंतर्निहित वितरण से तैयार किए गए हैं और को से प्रतिस्थापन के साथ तैयार किया गया है ।N{x1,,xN}μ एन = टी एन ( एक्स 1 , ... , x एन ) μ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
XiXi{x1,,xN}

हालाँकि, हम लंबाई छोटे नमूनों का भी उपयोग कर सकते हैं और अनुमानक यह पता चला है कि, , अनुमानक ( ) के पास समान सेटिंग्स में सबसे अधिक सीमित वितरण है जहां ( ) रखती है और कुछ जहां यह नहीं है। इस मामले में, ( ) और ( ) का एक ही सीमित वितरण है, जैसे कि सुधार कारक को प्रेरित करके नमूना मानक विचलन।M<N

(2)M(TM(X1,,XM)μ^N).
M,N1122112MN

ये तर्क सभी विषम हैं और केवल सीमा । यह काम करने के लिए, बहुत छोटा नहीं चुनना महत्वपूर्ण है । सबसे अच्छा सैद्धांतिक परिणाम प्राप्त करने के लिए एक समारोह के रूप में इष्टतम लेने के तरीके के रूप में कुछ सिद्धांत (जैसे नीचे बिकेल और सकोव) है , लेकिन आपके मामले में कम्प्यूटेशनल संसाधन निर्णायक कारक हो सकते हैं।M,NM एम एनMN

कुछ अंतर्ज्ञान के लिए: कई मामलों में, हमारे पास रूप में , ताकि एक तरह थोड़ा के बारे में सोचा जा सकता है से बाहर साथ बूटस्ट्रैप और (मैं लोअर केस से बचने के अंकन भ्रम को उपयोग कर रहा हूँ )। इस तरह, (के वितरण की नकल एक का प्रयोग करके) से बाहर साथ बूटस्ट्रैप पारंपरिक की तुलना में ऐसा करने के लिए (एक और अधिक `` सही '' बात यह है से बाहरμ^NDμN

(3)N(TN(X1,,XN)μ),
mnm=Nn=एमएनएम<एनएनएन3MNM<NNN) मेहरबान। आपके मामले में एक अतिरिक्त बोनस यह है कि इसका मूल्यांकन करना कम्प्यूटेशनल रूप से कम महंगा है।

जैसा कि आप उल्लेख करते हैं, पोलिटिस और रोमानो मुख्य पेपर है। मैं Bickel एट अल (1997) का एक अच्छा सिंहावलोकन नीचे खोजने के लिए से बाहर बूटस्ट्रैप के साथ-साथ।MN

स्रोत :

PJ Bickel, F Goetze, WR van Zwet। 1997. अवलोकनों की तुलना में बहुत कम है : नुकसान के लिए लाभ, हानि और उपचार। स्टेटिस्टिका सिनिका।n

पीजे बिकल, ए सकोव। 2008. बूटस्ट्रैप के ouf में की पसंद और एक्स्ट्रेमा के लिए विश्वास सीमा। स्टेटिस्टिका सिनिका।mmn


3

विषय पर अधिक पढ़ने के बाद, ऐसा लगता है कि "उप-नमूना" के तहत स्थापित सिद्धांत है जो इस प्रकार के आत्मविश्वास अंतराल अनुमान लगाने की अनुमति देता है। मुख्य संदर्भ "पोलिटिस, डीएन, रोमानो, जेपी (1994) है। बड़े नमूनों का विश्वास क्षेत्रों में उप-नमूने न्यूनतम मान्यताओं पर आधारित है। सांख्यिकी के 22, 2031-2050।"

यह विचार M <N आकार के नमूने को आकर्षित करने के लिए है, प्रत्येक नमूने के लिए "प्रतिस्थापन के बिना" (लेकिन आकार B के विभिन्न नमूनों में प्रतिस्थापन के साथ), N प्रारंभिक डेटा बिंदुओं (मेरे मामले में श्रृंखला) से, और विश्वास अंतराल का अनुमान लगाएं इन नमूनों और सामान्य बूटस्ट्रैप विधि का उपयोग करके ब्याज का पैरामीटर। फिर एम। में परिवर्तन के साथ पैरामीटर के अंतर्निहित वितरण के परिवर्तन में परिवर्तन की दर के आधार पर विश्वास अंतराल को स्केल करें। यह दर कई सामान्य सेटिंग्स में 1 / एम है, लेकिन अगर हम कुछ अलग एम के साथ प्रक्रिया दोहराते हैं तो अनुभवजन्य अनुमान लगाया जा सकता है। मान और अंतर-प्रतिशतक श्रेणियों के आकार में परिवर्तन को देखते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.