पैरामीट्रिक और गैर पैरामीट्रिक बूटस्ट्रैप पर प्रश्न


14

मैं केविन मर्फी की पुस्तक " मशीन लर्निंग - ए प्रोबैबिस्टिस्टिक पर्सपेक्टिव " से लगातार आंकड़ों पर अध्याय पढ़ रहा हूं । बूटस्ट्रैप पर अनुभाग पढ़ता है:

बूटस्ट्रैप नमूना वितरण को अनुमानित करने के लिए एक सरल मोंटे कार्लो तकनीक है। यह उन मामलों में विशेष रूप से उपयोगी है जहां अनुमानक सच्चे मापदंडों का एक जटिल कार्य है।

विचार सरल है। यदि हमें सही पैरामीटर पता था parameters , तो हम कई वितरण ( कह सकते हैं ) नकली डेटासेट, आकार प्रत्येक , सही वितरण से, x_i ^ s \ sim p (· | θ ^ ∗) , s = 1 के लिए | एस, आई = 1: एन । हम तब प्रत्येक नमूने से अपने अनुमानक की गणना कर सकते हैं, \ hat {\ theta ^ s} = f (x ^ s_ {1: N}) और नमूना वितरण के हमारे अनुमान के रूप में परिणामी नमूनों के अनुभवजन्य वितरण का उपयोग करें। चूँकि \ Theta अज्ञात है, पैरामीट्रिक बूटस्ट्रैप का विचार इसके बजाय \ hat {\ theta} (D) के उपयोग से नमूने उत्पन्न करना है ।θSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

गैर-पैरामीट्रिक बूटस्ट्रैप नामक एक विकल्प, मूल डेटा से (प्रतिस्थापन के साथ) का नमूना है , और फिर पहले की तरह प्रेरित वितरण की गणना करता है। बड़े डेटा सेट पर लागू होने पर बूटस्ट्रैप में तेजी लाने के कुछ तरीकों पर चर्चा की जाती है (क्लेनर एट अल। 2011)।xisD

  • 1 है । पाठ कहता है:

    अगर हमें पता था कि असली पैरामीटर ... हम प्रत्येक नमूने से अपने अनुमानक की गणना कर सकते हैं, ... ...θθs^

        लेकिन मैं प्रत्येक नमूने के अनुमानक का उपयोग क्यों करूंगा, अगर मुझे पहले से ही सही पैरामीटर ?θ

  • । इसके अलावा, अनुभवजन्य वितरण और नमूना वितरण के बीच यहां क्या अंतर है?

  • । अंत में, मैं इस पाठ से पैरामीट्रिक और गैर पैरामीट्रिक बूटस्ट्रैप के बीच के अंतर को नहीं समझता । वे दोनों के सेट से अनुमान लगाते हैं , लेकिन वास्तव में क्या अंतर है?डीθD

जवाबों:


14

मिउरा द्वारा दिया गया उत्तर पूरी तरह से सही नहीं है इसलिए मैं इस पुराने प्रश्न का उत्तर देने के लिए जवाब दे रहा हूं:

(2)। ये बहुत अलग चीजें हैं। अनुभवजन्य सीडीएफ सीडीएफ (वितरण) का एक अनुमान है जो डेटा उत्पन्न करता है। संक्षेप में, यह असतत CDF जो प्रदान करती है संभावना है 1/n प्रत्येक मनाया डेटा बात करने के , प्रत्येक के लिएएक्स। सच CDF को यह आकलनकर्ता converges: एफ (एक्स)एफ(एक्स)=पी(एक्समैंएक्स)प्रत्येक के लिए लगभग निश्चित रूप सेएक्स(वास्तव में समान रूप से)।F^(x)=1ni=1nI(Xix)xF^(x)F(x)=P(Xix)x

एक सांख्यिकीय का नमूना वितरण इसके बजाय उस सांख्यिकीय का वितरण है जिसे आप दोहराया प्रयोग के तहत देखने की उम्मीद करेंगे। यही है, आप एक बार अपना प्रयोग करते हैं और डेटा एक्स 1 , , एक्स एन इकट्ठा करते हैं । T आपके डेटा का एक कार्य है: T = T ( X 1 , , X n ) । अब, आप प्रयोग, और कलेक्ट डेटा को दोहराने लगता है एक्स ' 1 , ... , एक्स ' एन । नया नमूना पर पुन: गणना की टी देता है टी 'TX1,,XnTT=T(X1,,Xn)X1,,Xn । यदि हम 100 नमूने एकत्र करते हैं तो हमारे पास T के 100 अनुमान होंगे। की इन टिप्पणियों टी के नमूने वितरण फार्म टी । यह एक सच्चा वितरण है। प्रयोगों की संख्या अनंत को करने के लिए अपने मतलब converges चला जाता है के रूप में( टी ) और करने के लिए अपने विचरण वी एक आर ( टी )T=T(X1,,Xn)TTTE(T)Var(T)

सामान्य तौर पर हम इस तरह के प्रयोगों को नहीं दोहराते हैं, हम कभी केवल का एक उदाहरण देखते हैं । एक एकल अवलोकन से टी का विचलन क्या है यह पता लगाना बहुत मुश्किल है यदि आप टी की प्राथमिकता वाले अंतर्निहित संभावना फ़ंक्शन को नहीं जानते हैं । बूटस्ट्रैपिंग यह अनुमान लगाने का एक तरीका है कि कृत्रिम रूप से "नए प्रयोगों" द्वारा टी का नमूना वितरण, जिस पर टी के नए उदाहरणों की गणना करना है । प्रत्येक नया नमूना वास्तव में मूल डेटा से सिर्फ एक नमूना है। यह आपको मूल डेटा में रहस्यमय और पूरी तरह से भयानक से अधिक जानकारी प्रदान करता है।TTTTT

(1)। आप सही हैं - आप ऐसा नहीं करेंगे। लेखक पैरामीट्रिक बूटस्ट्रैप को "ऐसा करने के रूप में वर्णन करता है कि आप क्या करेंगे यदि आप वितरण को जानते हैं", लेकिन वितरण समारोह के एक बहुत अच्छे अनुमानक को प्रतिस्थापित करने के लिए प्रेरित करने की कोशिश कर रहा है - अनुभवजन्य सीएफडी।

उदाहरण के लिए, मान लें कि आप जानते हैं कि आपके परीक्षण सांख्यिकीय को सामान्य रूप से शून्य, विचरण एक के साथ वितरित किया जाता है। आप टी के नमूना वितरण का अनुमान कैसे लगाएंगे ? खैर, जब से आप वितरण को जानते हैं, नमूना वितरण का अनुमान लगाने के लिए एक मूर्खतापूर्ण और निरर्थक तरीका यह है कि आप 10,000 या तो मानक सामान्य यादृच्छिक चर उत्पन्न करने के लिए R का उपयोग करें, फिर उनका नमूना माध्य और विचरण करें, और इनका उपयोग माध्य के अनुमान के रूप में करें और टी के नमूना वितरण का विचरण ।TTT

यदि हम टी के मापदंडों को नहीं जानते हैं , लेकिन हम जानते हैं कि यह सामान्य रूप से वितरित किया जाता है, तो हम इसके बजाय क्या कर सकते हैं, उत्पन्न होता है 10,000 या तो अनुभवजन्य सीएफडी से नमूने, उनमें से प्रत्येक पर टी की गणना करें, फिर नमूना मतलब लें और इन 10,000 के विचरण टी है, और उम्मीद मूल्य और के विचरण के हमारे अनुमान के रूप में उपयोग टी । चूँकि अनुभवजन्य cdf सच्चे cdf का एक अच्छा अनुमानक है, इसलिए नमूना मापदंडों को सच्चे मापदंडों में परिवर्तित करना चाहिए। यह पैरामीट्रिक बूटस्ट्रैप है: आप जिस मॉडल का अनुमान लगाना चाहते हैं उस पर एक मॉडल प्रस्तुत करते हैं। मॉडल एक पैरामीटर द्वारा अनुक्रमित, जैसे ( μ , σ )TTTT(μ,σ), जो कि आप अनुमान लगाते हैं कि बार-बार सैंपल से एफ.आई.डी.एफ.

(3)। नॉनपामेट्रिक बूटस्ट्रैप के लिए आपको एक प्राथमिकता जानने की भी आवश्यकता नहीं है कि सामान्य रूप से वितरित किया गया है। इसके बजाय, आप बस ecdf से बार-बार नमूने खींचते हैं, और प्रत्येक पर टी की गणना करते हैं। जब आपने 10,000 या इतने सैंपल लिए हैं और 10,000 T s की गणना की है , तो आप अपने अनुमानों का हिस्टोग्राम कर सकते हैं। यह टी के नमूना वितरण का एक दृश्य हैTTTT। गैरपारंपरिक बूटस्ट्रैप आपको यह नहीं बताएगा कि नमूना वितरण सामान्य है, या गामा, या इसी तरह, लेकिन यह आपको नमूना वितरण (आमतौर पर) के रूप में आवश्यकतानुसार सटीक अनुमान लगाने की अनुमति देता है। यह कम धारणा बनाता है और पैरामीट्रिक बूटस्ट्रैप की तुलना में कम जानकारी प्रदान करता है। यह कम सटीक है जब पैरामीट्रिक धारणा सच है लेकिन अधिक सटीक है जब यह गलत है। आपके द्वारा सामना की जाने वाली प्रत्येक स्थिति में आप किसका उपयोग करते हैं यह पूरी तरह से संदर्भ पर निर्भर करता है। मोटे तौर पर अधिक लोग nonparametric बूटस्ट्रैप से परिचित हैं, लेकिन अक्सर एक कमजोर पैरामीट्रिक धारणा अनुमान लगाने के लिए पूरी तरह से अट्रैक्टिव मॉडल बनाती है, जो प्यारा है।


1
मैं पैरामीट्रिक बूटस्ट्रैप के आपके वर्णन के बारे में उलझन में हूं "हम इसके बजाय क्या कर सकते हैं उत्पन्न होता है 10,000 या तो अनुभवजन्य सीएफडी से नमूने" पैरामीट्रिक बूटस्ट्रैप की मेरी समझ यह है कि आप उस मॉडल से नमूना लेंगे जिसे आप डेटा में फिट करते हैं। यह वही है जो मर्फी पुस्तक का मूल उद्धरण वर्णन कर रहा है। मैं गलत हो सकता है, लेकिन डेटा के अनुभवजन्य सीडीएफ से नमूना सीधे डेटा बिंदुओं का नमूना होगा, जो मानक बूटस्ट्रैप होगा, नहीं?
user20160

@ user20160 आप उत्तर के "इसके बजाय" का गलत अर्थ लगा रहे हैं: वह गैरपारंपरिक बूटस्ट्रैप का वर्णन कर रहा है, पैरामीट्रिक का नहीं।
३०'१

4

मैं वास्तव में अतिथि 47 द्वारा योगदान के प्रयास की सराहना करता हूं, लेकिन मैं कुछ मामूली पहलुओं में, उनके जवाब से सहमत नहीं हूं। मैं सीधे अपनी असहमति नहीं जताता, बल्कि इस उत्तर में उन्हें प्रतिबिंबित करता हूं।

  1. कई मामलों में, यह है निरर्थक करने के लिए गणना θ रों जब हम पहले से ही जानते सच अंतर्निहित पैरामीटर θ * । हालांकि, यह अभी भी उपयोगी है जब हम सटीकता और की शुद्धता को देखने के लिए चाहते θ रों में आकलन θ * । इसके अलावा, आपके उद्धृत अंश में पहला पैराग्राफ आपके लिए "पैरामीट्रिक बूटस्ट्रैप" की धारणा को समझना आसान बना देगा, जिसे मैं कुछ ही समय बाद छू लूंगा।θ^sθθ^sθ

  2. Guest47 अच्छा जवाब देता है। अधिक विस्तार करने की आवश्यकता नहीं है।

  3. पैरामीट्रिक बूटस्ट्रैपिंग में, क्या आपके पास मनाया डेटा D. आप डेटा फिट करने के लिए एक पैरामीट्रिक मॉडल के साथ आ रहा है, और उपयोग आकलनकर्ता θ सच मापदंडों के लिए (डेटा डी के एक समारोह है) θ * । तो फिर तुम साथ पैरामीट्रिक मॉडल से डेटासेट के हजारों उत्पन्न θ , और अनुमान है θ है इन मॉडलों के लिए। नॉनपेरमेट्रिक बूटस्ट्रैपिंग में, आप सीधे डी, सैंपल (हजारों बार) का उपयोग डी से उत्पन्न डेटा के बजाय बिल्कुल करते हैं। θ^θθ^θ^s


2

मैं कोई विशेषज्ञ नहीं हूँ, लेकिन इसके लायक क्या है:

  1. क्योंकि आप नमूना वितरण में रुचि रखते हैं, जैसा कि आपके उद्धरण के पहले वाक्य में बताया गया है।

  2. अनुभवजन्य वितरण वह वितरण है जिसे आप अपने परिमित संख्या में नमूनों में देखते हैं। नमूना वितरण वह है जो आप देखेंगे कि आप अनंत संख्या में नमूने ले रहे हैं।

मैं जवाब नहीं दे सकता 3. मुझे हमेशा समझ में आया कि यहाँ क्या गैरपारंपरिक बूटस्ट्रैप को "द बूटस्ट्रैप" के रूप में वर्णित किया गया है।

यदि आपने पहले से ही नमूना वितरण की अवधारणा को पूरी तरह से समझ नहीं लिया है, तो यहां वास्तव में एक अच्छा धागा है जो बहुत ही निराशाजनक आर कोड बनाता है।


5
पैरामीट्रिक और नॉनपैरेमेट्रिक बूटस्ट्रैप के बीच का अंतर यह है कि पूर्व अनुमानित मानों का उपयोग करते हुए डेटा के वितरण (मान) से अपने नमूने उत्पन्न करता है, जबकि उत्तरार्द्ध मनाया डेटा से प्रतिस्थापन के साथ नमूने द्वारा अपने नमूने उत्पन्न करता है - कोई पैरामीट्रिक मॉडल नहीं माना गया। ।
२०:०२ पर जम्मन j

@jbowman - "गैर पैरामीट्रिक" बूटस्ट्रैप करता एक अंतर्निहित मॉडल है - सिर्फ इतना है कि यह पैरामीटर अनुमान प्रेरित करने के लिए प्रयोग किया जाता है एक के लिए एक अलग मॉडल है।
प्रोबेबिलिसोलॉजिक

@miura कृपया अपना उत्तर न दें। यदि आप चाहते हैं कि प्रश्नकर्ता एक अलग उत्तर चुनें, तो सवाल के नीचे टिप्पणी करें। यदि आप अपना उत्तर हटाना चाहते हैं, तो कृपया उसे चिह्नित करें और उसके लिए पूछें।
Glen_b -Reinstate मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.