मोंटे कार्लो बनाम बूटस्ट्रैप, त्रुटि का अनुमान


12

मैं भूवैज्ञानिक गणनाओं, एंडरसन (1976) में मोंटे कार्लो विधि द्वारा लेख त्रुटि प्रसार पढ़ रहा हूं और कुछ ऐसा है जो मुझे काफी समझ में आता है।

कुछ मापा डेटा और एक प्रोग्राम जो इसे संसाधित करता है और किसी दिए गए मान को लौटाता है। लेख में, इस कार्यक्रम का उपयोग सबसे पहले डेटा के साधनों (यानी: ) का उपयोग करके सर्वोत्तम मूल्य प्राप्त करने के लिए किया जाता है ।{ एक , बी , सी }{A±σA,B±σB,C±σC}{A,B,C}

लेखक तब इस सर्वोत्तम मूल्य को अनिश्चितता प्रदान करने के लिए एक मोंटे कार्लो विधि का उपयोग करता है, जो इनपुट अनिश्चितताओं को उनकी अनिश्चितता सीमा के भीतर अलग-अलग करके देता है (मतलब और मानक विचलन साथ एक Gaussian वितरण द्वारा। कार्यक्रम में उन्हें खिलाने से पहले )। यह नीचे दिए गए चित्र में दर्शाया गया है:{ σ एक , σ बी , σ सी }{A,B,C}{σA,σB,σC}

यहां छवि विवरण दर्ज करें

( कॉपीराइट: साइंसडायरेक्ट )

जहां अनिश्चितता को अंतिम वितरण से प्राप्त किया जा सकता है ।Z

अगर इस मोंटे कार्लो विधि के बजाय, मैंने बूटस्ट्रैप पद्धति लागू की तो क्या होगा? कुछ इस तरह:

यहां छवि विवरण दर्ज करें

यह है: कार्यक्रम को खिलाने से पहले उनकी अनिश्चितताओं के भीतर डेटा को अलग करने के बजाय, मैं उनसे प्रतिस्थापन के साथ नमूना लेता हूं।

इस मामले में इन दो तरीकों के बीच क्या अंतर हैं? उनमें से किसी को भी लागू करने से पहले मुझे क्या पता होना चाहिए?


मैं बूटस्ट्रैप, मोंटे कार्लो के इस सवाल से अवगत हूं , लेकिन यह मेरे संदेह को काफी हल नहीं करता है, इस मामले में, डेटा में अनिश्चितताएं हैं।


बस स्पष्ट करने के लिए: एमसी विधि में "यादृच्छिक परिवर्तन" यादृच्छिक रूप से शोधकर्ता द्वारा उत्पन्न होता है? अर्थात्, इनपुट डेटा में शोर / त्रुटियों को कृत्रिम रूप से जोड़ा जा रहा है?
छायाकार

यह मापा डेटा (यानी: s) की अनिश्चितताओं के आधार पर "बेतरतीब ढंग से उत्पन्न" है, और इन त्रुटियों के लिए एक निश्चित वितरण (आमतौर पर गाऊसी) मान रहा है। तो नहीं, त्रुटियों को कृत्रिम रूप से नहीं जोड़ा गया है। इनपुट डेटा में मापन प्रक्रिया द्वारा दी गई एक त्रुटि है। σ
गेब्रियल

मुझे नहीं लगता कि मैं समझता हूं। यह कृत्रिम शोर है, लेकिन डेटा से अनुमानित मानक विचलन के साथ
छायाकार

तब मुझे शायद समझ नहीं आया कि "कृत्रिम शोर" क्या है (और "गैर-कृत्रिम शोर" क्या होगा)। क्या आपने लेख देखा है? यह निश्चित रूप से चीजों को मुझसे बेहतर बताता है।
गेब्रियल

प्राकृतिक शोर: मेरे डेटा में यादृच्छिक भिन्नता। कृत्रिम शोर: संभावना वितरण से संख्याओं को आकर्षित करने के लिए एक यादृच्छिक संख्या जनरेटर का उपयोग करना, और मेरे डेटा में उन संख्याओं को जोड़ना
छायाकार

जवाबों:


7

जहां तक ​​मैं आपके प्रश्न को समझता हूं, "मोंटे कार्लो" दृष्टिकोण और बूटस्ट्रैप दृष्टिकोण के बीच अंतर अनिवार्य रूप से पैरामीट्रिक और गैर-पैरामीट्रिक आंकड़ों के बीच का अंतर है।

पैरामीट्रिक फ्रेमवर्क में, किसी को ठीक से पता है कि डेटा कैसे उत्पन्न होता है, , आपके विवरण में मॉडल ( , , और tc।) के मापदंडों को देखते हुए , आप इस तरह के डेटासेट का वास्तविक उत्पादन कर सकते हैं। , और उनसे आपकी सांख्यिकीय प्रक्रिया के नए अहसास (या "आउटपुट")। इस प्रकार यह पूरी तरह से और पूरी तरह से आउटपुट की संभावना वितरण का वर्णन करने के लिए संभव है , या तो गणितीय व्युत्पत्तियों द्वारा या मोंटे कार्लो प्रयोग द्वारा इस वितरण से मनमाने आकार का एक नमूना लौटाया जा सकता है।σ एक जेडx1,,xNAσAZ

गैर-पैरामीट्रिक ढांचे में, कोई भी डेटा पर इस तरह की धारणा बनाने की इच्छा नहीं रखता है और इस प्रकार डेटा और केवल डेटा का उपयोग करके इसके वितरण का अनुमान लगाता है, । बूटस्ट्रैप इस तरह का एक दृष्टिकोण है कि अज्ञात वितरण का अनुमान प्रायोगिक वितरण द्वारा नमूना के प्रत्येक बिंदु पर की संभाव्यता भार (डेटा के आईआईडी में सबसे सरल स्थिति में) लगाकर किया जाता है। असली वितरण प्रतिस्थापन के रूप में इस अनुभवजन्य वितरण का उपयोग करके , एक मोंटे कार्लो द्वारा प्राप्त किया जा सकता है आउटपुट के अनुमानित वितरण का अनुकरण करता है ।एफ 1 / n एफ एफ जेडFF^1/nF^FZ

इस प्रकार, दोनों दृष्टिकोणों के बीच मुख्य अंतर यह है कि कोई डेटा के वितरण के बारे में इस पैरामीट्रिक धारणा को बनाता है या नहीं।


2
लगभग दो साल बाद, मैं जानता हूं कि यह सबसे अच्छा जवाब है क्योंकि यह स्पष्ट रूप से पैरामीट्रिक और गैर-पैरामीट्रिक दृष्टिकोणों के बीच अंतर का उल्लेख करता है (जो मुझे तब पता नहीं था) इस प्रकार, मैं इस एक के लिए स्वीकृत उत्तर को बदल रहा हूं ।
गेब्रियल

लेकिन सर्वोपरि दृष्टिकोण के लिए भी पैरामीट्रिक बूटस्ट्रैप का सही उपयोग किया जा सकता है?
टॉम वेन्सलेर्स

12

अपने मोंटे कार्लो मॉडल में यादृच्छिक परिवर्तन एक घंटी वक्र द्वारा दर्शाया गया है और अभिकलन संभवतः "त्रुटि" या "परिवर्तन" वितरित करता है। कम से कम, आपके कंप्यूटर को "परिवर्तन" खींचने के लिए वितरण के बारे में कुछ धारणा की आवश्यकता है। बूटस्ट्रैपिंग जरूरी नहीं कि ऐसी धारणाएं बनाए। यह टिप्पणियों को टिप्पणियों के रूप में लेता है और यदि उनकी त्रुटि को असमान रूप से वितरित किया जाता है, तो यह उस तरीके से मॉडेल में चला जाता है।

बूटस्ट्रैपिंग अवलोकन से आकर्षित होता है और इस प्रकार कई सच्चे अवलोकन की आवश्यकता होती है। यदि आप किसी पुस्तक में पढ़ते हैं, तो वह C 1 के मानक विचलन के साथ 5 पर औसत है, तो आप एक मोंटे कार्लो मॉडल सेट कर सकते हैं, भले ही आपके पास आकर्षित करने के लिए टिप्पणियां न हों। यदि आपका अवलोकन दुर्लभ है (सोचें: खगोल विज्ञान) तो आप 6 टिप्पणियों और उनके वितरण के बारे में कुछ मान्यताओं के साथ एक मोंटे कार्लो मोडेल स्थापित कर सकते हैं, लेकिन आप 6 टिप्पणियों से बूटस्ट्रैप नहीं करेंगे।

अवलोकन किए गए डेटा से खींचे गए कुछ इनपुट और सिम्युलेटेड (काल्पनिक) डेटा से कुछ के साथ मिश्रित मोडल संभव हैं।

संपादित करें: टिप्पणियों में निम्नलिखित चर्चा में, मूल पोस्टर में निम्नलिखित सहायक पाए गए:

"मूल कार्यक्रम" परवाह नहीं करता है, चाहे वह एक मूल्य प्राप्त करता है, कि आप एक माध्य और विचलन से गणना करते हैं या यह एक माध्य का एक वास्तविक एहसास है और एक प्राकृतिक प्रक्रिया में विचलन है।


1
आपके उत्तर बर्नहार्ड के लिए धन्यवाद! कुछ सवाल जो मेरे दिमाग में आते हैं। 1. क्या मैं सही ढंग से समझ रहा हूं कि इन दोनों विधियों के बीच एकमात्र (मुख्य?) अंतर यह है कि एमसी को अनिश्चितताओं के लिए एक वितरण की आवश्यकता है जबकि बूटस्ट्रैप नहीं करता है? 2. यदि मेरे पास एक बड़ा पर्याप्त डेटासेट था और मैंने कई बार ( ) पुनरावृति का प्रदर्शन किया , तो क्या ये दोनों विधियाँ सर्वश्रेष्ठ मूल्य को निर्दिष्ट अनुमानित अनिश्चितता पर अभिसरण करेंगी ? 3. क्या मैं बूटस्ट्रैप विधि में इनपुट डेटा को निर्दिष्ट अनिश्चितताओं का उपयोग करके मूल्यवान डेटा को नहीं छोड़ रहा हूं ? N
गेब्रियल

1
मैं सांख्यिकीय रूप से / मशीन-लर्निंग स्व-सिखाया जाता हूं, इसलिए मैं यह दावा नहीं करूंगा कि मैंने जिन मतभेदों का उल्लेख किया है उनमें से केवल एक ही है। मैं निश्चित भी नहीं हूं, चाहे बूटस्ट्रैपिंग को एक मोंटे कार्लो विधि ही माना जाता है। दोनों एल्गोरिदम बड़ी संख्या में यथार्थवादी परिदृश्यों का अनुकरण करते हैं। आप या तो इनपुट को मान्यताओं से या टिप्पणियों से आकर्षित कर सकते हैं। मेरा क्षेत्र चिकित्सा है और उस क्षेत्र में धारणाएँ गलत हैं। इसलिए मैं कोशिश करूंगा कि जब भी वे पर्याप्त संख्या में उपलब्ध हों, टिप्पणियों के साथ जाएं। यह अच्छी तरह से हो सकता है, कि भौतिकी या रसायन विज्ञान के करीब के क्षेत्र में ...
बर्नहार्ड

1
... कि भौतिकी या रसायन विज्ञान के करीब क्षेत्रों में, धारणाएं अधिक विश्वसनीय हैं। जैसा कि बिंदु 2: यदि आप बड़े पर्याप्त नमूने और पुनरावृत्तियों द्वारा जाते हैं, तो मुझे लगता है, आप पाएंगे कि वास्तविक डेटा सामान्य रूप से कभी वितरित नहीं होता है और आपकी धारणाएँ हमेशा थोड़ी गलत होती हैं, लेकिन मैं किसी भी ज्ञान का दावा नहीं कर सकता। 3 बिंदु के रूप में: मैं बूटस्ट्रैप विधि में मूल्यवान डेटा को त्यागने से क्या मतलब है, यह समझने के लिए आपको श्योर नहीं हूं। "अनिश्चितता सौंपना" मानव निर्मित है, डेटा वास्तविकता से आता है। फिर से, यह मेरा विश्वास मेरे क्षेत्र पर आधारित है। वास्तव में, आपके पास शायद ही कभी अच्छा सिद्धांत और बड़ा डेटा होगा
बर्नहार्ड 14

1
द्वारा मूल्यवान डेटा को त्यागकर मेरा मतलब है कि बूटस्ट्रैप विधि डेटा करने के लिए सौंपा अनिश्चितताओं का कोई उपयोग नहीं करता है (यानी: ) यह "जानकारी" कि एम सी विधि खाता लेकिन बूटस्ट्रैप छोड देता है में ले जाता है। σA,σB,σC
गेब्रियल

1
प्रत्येक अवलोकन एक मापा मूल्य है और इस प्रकार पहले से ही इसकी माप त्रुटि और अनिश्चितता है। "मूल कार्यक्रम" परवाह नहीं करता है, चाहे वह एक मूल्य प्राप्त करता है, कि आप एक माध्य और विचलन से गणना करते हैं या यह एक माध्य का एक वास्तविक एहसास है और एक प्राकृतिक प्रक्रिया में विचलन है। लेकिन निश्चित रूप से, सभी resampling तकनीक एक बड़े डेटा आधार पर निर्भर करती हैं और आप मनमानी संख्या या यादृच्छिक संख्याओं की गणना कर सकते हैं, लेकिन आमतौर पर टिप्पणियों की मनमानी संख्या नहीं बनाते हैं। इसलिए ऐसे मामलों में जहां आपके पास बड़ी संख्या में अवलोकन हैं, मैं नहीं देखता हूं, जहां डेटा को छोड़ दिया गया है।
बर्नहार्ड

1

यदि आउटपुट Z से इनपुट्स से संबंधित फ़ंक्शन यथोचित रैखिक है (यानी इनपुट्स की भिन्नता सीमा के भीतर), Z का भिन्नता इनपुट के वेरिएंस और सहसंयोजी का संयोजन है। वितरण का विवरण बहुत अधिक मायने नहीं रखता है ... इसलिए, दोनों विधियों को समान परिणाम वापस करना चाहिए।

GUM के लिए पूरक 1 देखें


क्या होता है जब फ़ंक्शन यथोचित रैखिक नहीं होता है ? फिर ये दोनों विधियाँ कैसे भिन्न होंगी?
गेब्रियल 14

उस मामले में, आपको बर्नहार्ड द्वारा उपरोक्त उत्तर का उल्लेख करना चाहिए। यही है, उन्हें संयोग करने के लिए, आपको मोंटे कार्लो के लिए डेटा पीडीएफ का एक वफादार विवरण होना चाहिए।
पास्कल

0

बूटस्ट्रैप का मतलब है डेटा को अपने लिए बोलना। मोंटे कार्लो विधि के साथ, आप समान वितरण के माध्यम से लगाए गए सीडीएफ (सामान्य; गामा; बीटा ...) से कई यादृच्छिक ड्रॉ का नमूना लेते हैं और एक अनुभवजन्य पीडीएफ बनाते हैं (बशर्ते कि सीडीएफ निरंतर और व्युत्पन्न हो)। संपूर्ण मोंटे कार्लो प्रक्रिया का एक दिलचस्प विवरण इसमें बताया गया है: ब्रिग्स ए, शल्पर एम, क्लैक्सटन के। निर्णय आर्थिक स्वास्थ्य मूल्यांकन के लिए मॉडलिंग। ऑक्सफोर्ड: ऑक्सफोर्ड यूनिवर्सिटी प्रेस, 2006: 93-95।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.