भरोसेमंद टिप्पणियों पर बूटस्ट्रैप के माध्यम से विश्वास अंतराल की गणना करना

बूटस्ट्रैप, अपने मानक रूप में, अनुमानित आँकड़ों के विश्वास अंतराल की गणना करने के लिए इस्तेमाल किया जा सकता है बशर्ते कि टिप्पणियों iid हैं। I. विज़सर एट अल। " हिडन मार्कोव मॉडल पैरामीटर्स के लिए कॉन्फिडेंस इंटरवल ," एचएमएम मापदंडों के लिए सीआई की गणना के लिए पैरामीट्रिक बूटस्ट्रैप का उपयोग किया। हालांकि, जब हम एक एचएमएम को एक अवलोकन अनुक्रम पर फिट करते हैं, तो हमने पहले ही मान लिया है कि अवलोकन निर्भर हैं (मिश्रण मॉडल के विपरीत)।

मेरे दो सवाल हैं:

बूटस्ट्रैप के साथ आईआईडी धारणा क्या करती है?
क्या हम पैरामीट्रिक बूटस्ट्रैप में आईड की आवश्यकता को अनदेखा कर सकते हैं?

विज़सर एट अल। विधि संक्षेप में इस प्रकार है:

मान लें कि हमारे पास एक अवलोकन अनुक्रम है परिणाम HMM के वास्तविक लेकिन अज्ञात सेटों के साथ प्रतिमान । $Y=o_1,o_2,...,o_n$ $\theta=\theta_1,\theta_2,...,\theta_l$
मापदंडों का अनुमान ईएम एल्गोरिथ्म का उपयोग करके लगाया जा सकता है: $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
आकार का एक बूटस्ट्रैप नमूना उत्पन्न करने के लिए अनुमानित HMM का उपयोग करें : $n$ $Y^*=o^*_1,o^*_2,...,o^*_n$
बूस्ट सैंपल के अनुसार HMM के अनुमानित पैरामीटर: $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
बूट समय के लिए चरण 3 और 4 को दोहराएं (जैसे = 1000) जिसके परिणामस्वरूप बूटस्ट्रैप का अनुमान है: $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
प्रत्येक अनुमानित पैरामीटर बूटस्ट्रैप अनुमानों में के वितरण का उपयोग करके करें । $\hat{\theta}_i$ $\hat{\theta}^*_i$

नोट्स (मेरे निष्कर्ष):

सही कवरेज के लिए CI की गणना करने के लिए प्रतिशतक विधि का उपयोग किया जाना चाहिए (सामान्यता एक बुरी धारणा है)।
बूटस्ट्रैप वितरण के पूर्वाग्रह को ठीक किया जाना चाहिए। इसका मतलब है कि वितरण का मतलब स्थानांतरित कर दिया जाना चाहिए $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— Sadeghd
स्रोत

दूसरे शब्दों में पहला सवाल: बूटस्ट्रैप पर आईड धारणा का प्रभाव क्या है? क्या यह एक सरल धारणा है जिसे अधिक जटिल एल्गोरिथ्म, या सूत्र का पालन करके हटाया जा सकता है?

— साडेघड

संक्षिप्त उत्तर: 1. यह इसे सरल बनाता है। (स्पष्ट रूप से, मुझे सवाल नहीं मिला)। 2. नहीं, आप इसे कभी भी नजरअंदाज नहीं कर सकते हैं, क्योंकि जो कुछ भी आप अनुमान लगा रहे हैं उसके विभिन्न रूपों पर iid की कमी के तत्काल परिणाम हैं।

मध्यम उत्तर: बूटस्ट्रैप के साथ केंद्रीय मुद्दा बहुत सुंदर है, 'क्या प्रस्तावित प्रक्रिया डेटा की विशेषताओं को पुन: पेश करती है?' । आईआईडी धारणा का उल्लंघन एक बड़ी बात है: आपका डेटा निर्भर है, आपके (सबसे अधिक संभावना है) आपके डेटा में उसी आकार के आईआईडी नमूने में कम जानकारी होगी, और यदि आप एक अनुभवहीन बूटस्ट्रैप चलाते हैं (व्यक्ति को पुनः भेजें) अवलोकन), आपको इससे मिलने वाली मानक त्रुटियां बहुत कम होंगी। प्रस्तावित प्रक्रिया मॉडल संरचना और मापदंडों में निर्भरता पर कब्जा (या कम से कम कब्जा करने का प्रयास) करके स्वतंत्रता की कमी की समस्या को दरकिनार करती है। सफल होने पर, प्रत्येक बूटस्ट्रैप नमूना आवश्यकतानुसार डेटा की विशेषताओं को पुन: पेश करेगा।

लंबा जवाब:बूटस्ट्रैप के संबंध में मान्यताओं की कई परतें हैं, और यहां तक कि सबसे सरल संभव मामले में (आईआईडी डेटा, मतलब का अनुमान), आपको कम से कम तीन धारणाएं बनानी होंगी: (1) ब्याज की सांख्यिकी डेटा का एक सुचारू कार्य है (माध्य के मामले में सच, प्रतिशत के मामले में भी इतना सच नहीं है, पूरी तरह से निकटतम पड़ोसी अनुमान लगाने वाले के साथ बंद है); (2) जिस वितरण से आप बूटस्ट्रैप करते हैं वह जनसंख्या वितरण के लिए "करीब" है (आईआईडी डेटा के मामले में ठीक काम करता है; आश्रित डेटा के मामले में ठीक काम नहीं कर सकता है, जहां आपके पास अनिवार्य रूप से केवल एक प्रक्षेपवक्र = एक अवलोकन है) समय श्रृंखला के मामले में, और आपको स्थिरता और इस एकल अवलोकन को अर्ध-आबादी में बदलने के लिए मिश्रण जैसी अतिरिक्त धारणाओं को लागू करना होगा); (3) आपके मोंटे कार्लो बूटस्ट्रैप का नमूना सभी संभव उपसमूह के साथ पूर्ण बूटस्ट्रैप के लिए एक अच्छा पर्याप्त सन्निकटन है (मोंटे कार्लो का उपयोग करने से अशुद्धि बनाम पूरा बूटस्ट्रैप आपके द्वारा कब्जा करने की कोशिश कर रहे अनिश्चितता से बहुत कम है)। पैरामीट्रिक बूटस्ट्रैप के मामले में, आप यह भी अनुमान लगाते हैं कि (4) आपका मॉडल पूरी तरह से डेटा की सभी विशेषताओं की व्याख्या करता है।

(4) के साथ क्या गलत हो सकता है की एक चेतावनी के रूप में, विषमलैंगिक त्रुटियों के साथ प्रतिगमन के बारे में सोचें: , Var , कहते हैं। यदि आप एक OLS मॉडल फिट करते हैं और अवशेषों को फिर से खोलते हैं जैसे कि वे iid थे, तो आपको एक गलत उत्तर मिलेगा (किसी प्रकार का जहां है औसत के बजाय उपयुक्त $y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ )। इसलिए यदि आप पूरी तरह से पैरामीट्रिक बूटस्ट्रैप समाधान करना चाहते हैं, तो आपको माध्य के लिए मॉडल के साथ-साथ विषमलैंगिकता के लिए मॉडल फिट करना होगा। और अगर आपको सीरियल या अन्य प्रकार के सहसंबंध पर संदेह है, तो आपको उसके लिए भी मॉडल फिट करना होगा। (देखें, बूटस्ट्रैप का गैर-पैरामीट्रिक वितरण-मुक्त स्वाद अब बहुत ज्यादा चला गया है, क्योंकि आपने डेटा की आवाज को अपने मॉडल की संश्लेषित आवाज से बदल दिया है।)

आपके द्वारा वर्णित विधि एक नया नमूना बनाकर आईआईडी धारणा के आसपास काम करती है। आश्रित डेटा बूटस्ट्रैप के साथ सबसे बड़ी समस्या यह है कि नमूना बनाने के लिए निर्भरता पैटर्न होगा जो मूल डेटा में पर्याप्त रूप से उन लोगों के करीब होगा। समय श्रृंखला के साथ, आप ब्लॉक बूटस्ट्रैप का उपयोग कर सकते हैं; क्लस्टर किए गए डेटा के साथ, आप पूरे समूहों को बूटस्ट्रैप करते हैं; विषमलैंगिक प्रतिगमन के साथ, आपको जंगली बूटस्ट्रैप्स के साथ होना चाहिए (जो कि अवशिष्ट के बूटस्ट्रैप की तुलना में बेहतर विचार है, भले ही आपने इसके लिए एक विषमकोणीय मॉडल फिट किया हो)। ब्लॉक बूटस्ट्रैप में, आपको एक शिक्षित अनुमान बनाना होगा (या, दूसरे शब्दों में, विश्वास करने के अच्छे कारण हैं) कि समय श्रृंखला के दूर के हिस्से लगभग स्वतंत्र हैं, जिससे कि सभी सहसंबंध संरचना आसन्न 5 या 10 से कब्जा कर लिया जाता है अवलोकन जो ब्लॉक का निर्माण करते हैं। इसलिए एक-एक करके टिप्पणियों को फिर से देखने के बजाय, जो समय-श्रृंखला के सहसंबंध संरचना को पूरी तरह से अनदेखा करता है, आप उन्हें ब्लॉकों में फिर से जोड़ते हैं, उम्मीद करते हैं कि यह सहसंबंध संरचना का सम्मान करेगा। जिस पैरामीट्रिक बूटस्ट्रैप का आपने उल्लेख किया है: "डेटा के साथ फ़िडलिंग करने और पुराने लोगों के टुकड़ों से नई गुड़िया को इकट्ठा करने के बजाय, मैं आपके लिए सिर्फ पूरे ढाले हुए बार्बी को मुहर क्यों नहीं लगाऊंगा? आपको जो पसंद है, और मैं वादा करता हूं कि मैं आपको एक पसंद करूंगा। " डेटा के साथ गड़बड़ करने और पुराने लोगों के टुकड़ों से नई गुड़िया को इकट्ठा करने के बजाय, मैं सिर्फ आपके लिए पूरे ढाले हुए बार्बी पर मुहर क्यों नहीं लगाता? मुझे पता चला है कि आपको किस तरह के Barbies पसंद हैं, और मैं वादा करता हूं कि मैं आपको एक ऐसा व्यक्ति बनाऊंगा, जिसे आप पसंद करेंगे। " डेटा के साथ गड़बड़ करने और पुराने लोगों के टुकड़ों से नई गुड़िया को इकट्ठा करने के बजाय, मैं सिर्फ आपके लिए पूरे ढाले हुए बार्बी पर मुहर क्यों नहीं लगाता? मुझे पता चला है कि आपको किस तरह के Barbies पसंद हैं, और मैं वादा करता हूं कि मैं आपको एक ऐसा व्यक्ति बनाऊंगा, जिसे आप पसंद करेंगे। "

आपके द्वारा वर्णित पैरामीट्रिक बूटस्ट्रैप के मामले में, आपको यह सुनिश्चित करना होगा कि आपका एचएमएम मॉडल फिट बहुत अधिक सही है, अन्यथा आपके पैरामीट्रिक बूटस्ट्रैप के कारण गलत परिणाम हो सकते हैं (Barbies जो अपनी बाहों को स्थानांतरित नहीं कर सकते हैं)। उपरोक्त हेटेरोसेडस्टिक रिग्रेस उदाहरण के बारे में सोचें; या AR (1) मॉडल को AR (5) डेटा में फिट करने के बारे में सोचें: आप जो भी डेटा पैरामीट्रिक सिम्युलेटेड डेटा के साथ करते हैं, उनके पास वह संरचना नहीं होगी जिसका मूल डेटा उपयोग किया जाता है।

संपादित करें : जैसा कि सदेघ ने अपने प्रश्न को स्पष्ट किया, मैं उस पर भी प्रतिक्रिया दे सकता हूं। बूटस्ट्रैप प्रक्रियाओं की एक विनम्र विविधता है, प्रत्येक विशेष को या तो सांख्यिकीय, नमूना आकार, निर्भरता, या जो भी बूटस्ट्रैप के साथ एक मुद्दा हो सकता है, को संबोधित करता है। उदाहरण के लिए, निर्भरता को संबोधित करने का कोई एक तरीका नहीं है। (मैंने सर्वेक्षण बूटस्ट्रैप्स के साथ काम किया है, लगभग 8 अलग-अलग प्रक्रियाएं हैं, हालांकि कुछ व्यावहारिक ब्याज के बजाय ज्यादातर पद्धतिगत हैं; और कुछ स्पष्ट रूप से हीन हैं कि वे केवल विशेष में लागू होते हैं, आसानी से सामान्य होने योग्य नहीं हैं।) समस्याओं की सामान्य चर्चा आप बूटस्ट्रैप के साथ कर सकते हैं, कैंटी, डेविसन, हिंकले और वेंचुरा (2006) देखें। बूटस्ट्रैप डायग्नोस्टिक्स और उपचार। कनाडाई जर्नल ऑफ़ स्टैटिस्टिक्स, 34 (1), 5-27 ।

— StasK
स्रोत

कम जानकारी होने के बारे में अपने बयान में थोड़ा सा जोड़ने के लिए जब आपके पास डेटा के निर्भर क्लस्टर ( मध्यम खंड में) हैं, मेरा मानना है कि यह सच है जहां एक क्लस्टर के भीतर सकारात्मक इंट्रैक्लस सहसंबंध है, लेकिन नकारात्मक होने पर विपरीत सच है इंट्रक्लास सहसंबंध। बेशक, ऐसा लगता है कि अधिकांश वास्तविक डेटा अनुप्रयोगों में इंट्राक्लास सहसंबंध सकारात्मक हैं।

— मैक्रो

@ मैक्रो: आप निश्चित रूप से दोनों गणनाओं पर सही हैं (कि यह तकनीकी रूप से संभव है, और यह व्यावहारिक रूप से अप्रासंगिक है)। यदि आप एक नकारात्मक सहसंबंध के साथ एआर (1) प्रक्रिया के औसत स्तर का अनुमान लगाते हैं, तो यह सच होगा, लेकिन फिर से मैं वास्तविक प्रक्रियाओं के नुकसान की सोच पर हूं जो इस सुविधा के हो सकते हैं। अलग-अलग समय के तराजू पर स्व-प्रजनन करने वाले सकारात्मक ऑटोकैरेलेशन के विपरीत, यदि आपके संदर्भ अवधि की लंबाई दोगुनी हो जाती है, तो नकारात्मक सहसंबंध को गायब करना होगा। (व्यापार चक्र डेटा, जैसे यूएस जीडीपी, लगभग तीन वर्षों की अंतराल अवधि में नकारात्मक सहसंबंध हैं।)

— StasK

आपके विस्तृत उत्तर के लिए धन्यवाद। मैंने निष्कर्ष निकाला है कि पैरामीट्रिक पुन: नमूनाकरण निर्भरता के प्रभाव को कम कर सकता है। हालाँकि, पैरामीट्रिक वितरण, कुछ हद तक, सच्ची आबादी के प्रतिनिधि और निर्भरता पैटर्न को फिर से नमूना लेने में पुनर्जीवित किया जाना चाहिए।

— सादघद