क्या बड़े नमूना आकार के साथ बायेसियन पादरी अप्रासंगिक हो जाते हैं?


26

बायेसियन इंट्रेंस प्रदर्शन करते समय, हम मापदंडों के बारे में हमारे पास मौजूद पुजारियों के साथ संयोजन में हमारे संभावना समारोह को अधिकतम करके संचालित करते हैं। चूँकि लॉग-लाइबिलिटी अधिक सुविधाजनक है, इसलिए हम MCMC का उपयोग करते हुए प्रभावी रूप से अधिकतम करते हैं या अन्यथा जो पीछे के वितरण (पीडीएफ के लिए) का उपयोग करता है प्रत्येक पैरामीटर की पूर्व और प्रत्येक डेटा बिंदु की संभावना)।ln(prior)+ln(likelihood)

यदि हमारे पास बहुत अधिक डेटा है, तो इससे होने वाली संभावना सरल गणित द्वारा किसी भी जानकारी को प्रदान करने वाली है, जो पूर्व प्रदान करती है। अंततः, यह अच्छा है और डिजाइन द्वारा; हम जानते हैं कि पीछे वाला अधिक डेटा के साथ सिर्फ संभावना को अभिसरण करेगा क्योंकि यह माना जाता है।

संयुग्मक पुजारियों द्वारा परिभाषित समस्याओं के लिए, यह बिल्कुल सटीक भी है।

क्या यह तय करने का कोई तरीका है कि जब पुजारी किसी दिए गए कार्य और कुछ नमूना आकार के लिए मायने नहीं रखते हैं?


3
आपका पहला वाक्य सही नहीं है। बायेसियन इन्वेंशन, और एमसीएमसी एल्गोरिथ्म, संभावना को अधिकतम नहीं करते हैं।
niandra82

5
क्या आप सीमांत संभावना, बेयर्स कारक, पूर्व / पश्चवर्ती भविष्य कहनेवाला वितरण, पूर्व / पश्चवर्ती पूर्वानुमान जांच से परिचित हैं? ये एक प्रकार की चीजें हैं जिनका उपयोग आप बायेसियन प्रतिमान में मॉडल की तुलना करने के लिए करेंगे। मुझे लगता है कि यह सवाल बेयस फैक्टर के लिए उबलता है या नहीं, उन मॉडलों के बीच, जो केवल उनके पूर्व से भिन्न होते हैं, 1 में परिवर्तित हो जाएंगे क्योंकि नमूना आकार अनन्तता में जाता है। आप संभावित रूप से निहित पैरामीटर स्थान के भीतर अलग किए गए पुजारियों को रखना चाहते हैं, क्योंकि यह संभवतः अधिकतम संभावना अनुमान में परिवर्तित होने से लक्ष्य को अस्वीकार कर सकता है।
ज़ाचारी ब्लुमेनफ़ेल्ड

@ZacharyBlumenfeld: यह एक उचित उत्तर के रूप में योग्य हो सकता है!
शीआन

क्या सही रूप "बेयर्स का नियम अधिकतम" है? इसके अलावा, जिन मॉडलों के साथ मैं काम कर रहा हूं, वे शारीरिक रूप से आधारित हैं, इसलिए काम के लिए छंटनी वाले पैरामीटर रिक्त स्थान की आवश्यकता है। (मैं यह भी मानता हूं कि आपकी टिप्पणी शायद एक उत्तर है, क्या आप उन्हें @ZacharyBlumenfield से बाहर निकाल सकते हैं?)
पिक्सल

जवाबों:


37

यह इतना आसान नहीं है। आपके डेटा में जानकारी पूर्व सूचना को अधिभारित करती है न केवल आपका नमूना आकार बड़ा है, लेकिन जब आपका डेटा पूर्व जानकारी को अभिभूत करने के लिए पर्याप्त जानकारी प्रदान करता है । यूनिनफॉर्मेटिव पुजारी आसानी से डेटा द्वारा राजी हो जाते हैं, जबकि दृढ़ता से सूचनात्मक अधिक प्रतिरोधी हो सकते हैं। चरम मामले में, बीमार परिभाषित पुजारियों के साथ, आपका डेटा इसे दूर करने में सक्षम नहीं हो सकता है (उदाहरण के लिए कुछ क्षेत्र पर शून्य घनत्व)।

याद रखें कि बेयस प्रमेय द्वारा हम अपने सांख्यिकीय मॉडल में जानकारी के दो स्रोतों का उपयोग करते हैं, डेटा से बाहर, पूर्व सूचना और संभावना फ़ंक्शन में डेटा द्वारा बताई गई जानकारी :

posteriorprior×likelihood

अनइनफॉर्मेटिव पूर्व (या अधिकतम संभावना) का उपयोग करते समय, हम अपने मॉडल में न्यूनतम संभव पूर्व सूचना लाने का प्रयास करते हैं। सूचनात्मक पुजारियों के साथ हम मॉडल में पर्याप्त मात्रा में जानकारी लाते हैं। इसलिए, डेटा और पूर्व, हमें सूचित करें कि अनुमानित मापदंडों के मूल्य अधिक प्रशंसनीय या विश्वसनीय हैं। वे अलग-अलग जानकारी ला सकते हैं और उनमें से प्रत्येक कुछ मामलों में दूसरे पर हावी हो सकता है।

मुझे यह बहुत बुनियादी बीटा-द्विपद मॉडल के साथ स्पष्ट करें ( विस्तृत उदाहरण के लिए यहां देखें )। साथ "uninformative" पहले , बहुत छोटा सा नमूना पर्याप्त हो सकता है यह पराजित करते हुए। नीचे दिए गए भूखंडों पर आप अलग-अलग नमूना आकारों के साथ एक ही मॉडल के पुजारी (लाल वक्र), संभावना (नीला वक्र), और पोस्टेरियर्स (वायलेट वक्र) देख सकते हैं।

यहाँ छवि विवरण दर्ज करें

दूसरी ओर, आपके पास पहले से सूचनात्मक हो सकता है जो कि वास्तविक मूल्य के करीब है, यह भी आसानी से होगा, लेकिन साप्ताहिक सूचनात्मक के साथ आसानी से नहीं, डेटा द्वारा राजी किया गया।

यहाँ छवि विवरण दर्ज करें

पूर्व सूचनात्मक के साथ मामला बहुत अलग है, जब यह डेटा से दूर है (पहले उदाहरण में समान डेटा का उपयोग करके)। इस तरह के मामले में आपको पहले से उबरने के लिए बड़े नमूने की आवश्यकता होती है।

यहाँ छवि विवरण दर्ज करें

तो यह न केवल नमूना आकार के बारे में है, बल्कि यह भी है कि आपका डेटा क्या है और आपका पूर्व क्या है। ध्यान दें कि यह एक वांछित व्यवहार है, क्योंकि जब हम सूचनात्मक पुजारियों का उपयोग करते हैं, तो हम संभावित रूप से अपने मॉडल में डेटा की जानकारी शामिल करना चाहते हैं और यह असंभव होगा यदि बड़े नमूने हमेशा पुजारियों को छोड़ देंगे।

जटिल पश्च-संभावना-पूर्व संबंधों के कारण, यह हमेशा पीछे के वितरण को देखने और कुछ पूर्ववर्ती भविष्यवाणियां (जेलमैन, मेंग एंड स्टर्न, 1996; जेलमैन और हिल, 2006; जेलमैन एट अल, 2004) करने के लिए हमेशा अच्छा होता है । इसके अलावा, जैसा कि स्पीगेल्टर (2004) द्वारा वर्णित है, आप विभिन्न पुजारियों का उपयोग कर सकते हैं, उदाहरण के लिए "निराशावादी" जो बड़े प्रभावों के बारे में संदेह व्यक्त करते हैं, या "उत्साही" जो अनुमानित प्रभावों के बारे में आशावादी हैं। तुलना करना कि आपके डेटा के साथ अलग-अलग पुजारी कैसे व्यवहार करते हैं, इससे अनौपचारिक रूप से इस बात का आकलन करने में मदद मिल सकती है कि पूर्व से कैसे प्रभावित हुआ था।


स्पीगेल्टर, डीजे (2004)। स्वास्थ्य देखभाल मूल्यांकन में बायेसियन विचारों को शामिल करना। सांख्यिकीय विज्ञान, 156-174।

जेलमैन, ए।, कारलिन, जेबी, स्टर्न, एचएस, और रुबिन, डीबी (2004)। बायेसियन डेटा विश्लेषण। चैपमैन एंड हॉल / सीआरसी।

गेलमैन, ए और हिल, जे (2006)। प्रतिगमन और बहुस्तरीय / पदानुक्रमित मॉडल का उपयोग करके डेटा विश्लेषण। कैम्ब्रिज यूनिवर्सिटी प्रेस।

जेलमैन, ए।, मेंग, एक्सएल, और स्टर्न, एच। (1996)। एहसास हुआ विसंगतियों के माध्यम से मॉडल फिटनेस का पूर्ववर्ती अनुमानित आकलन। स्टैटिस्टिका साइनिका, 733-760।


2
अच्छा योगदान, धन्यवाद टिम। मैं यह जोड़ना चाहता हूं कि आप जिस कंट्रास्ट को अच्छी तरह से यहां रखते हैं , वह उस मॉडल के विभिन्न मापदंडों से संबंधित एक और एक ही मॉडल के भीतर भी मौजूद हो सकता है । कुछ पैरामीटर हो सकते हैं जिनके बारे में डेटा नगण्य जानकारी प्रदान करते हैं, जिस स्थिति में पुजारी पहचान प्रतिबंधों को प्रदान करने के लिए गंभीर रूप से सेवा कर सकते हैं ।
डेविड सी। नोरिस

ग्राफ़ के पहले 3x3 मैट्रिक्स में, क्या ग्राफ़ सही हैं? पीछे वाला पूरी तरह से समतल है और n = 25 सहित?
मिशिगन

1
@MichiganWater प्रत्येक 9-प्लॉट संग्रह y- अक्ष के लिए एक ही पैमाने का उपयोग करता है ताकि सबसे बड़ा मान स्क्रीन से बाहर न जाए। इसलिए वे उस मामले में अपेक्षाकृत सपाट हैं जहां आपके पास अधिक डेटा है। यदि आप "ज़ूम इन" करते हैं, तो वे फ्लैट नहीं होंगे।
टिम

11

बायेसियन इंट्रेंस प्रदर्शन करते समय, हम मापदंडों के बारे में हमारे पास मौजूद पुजारियों के साथ संयोजन में हमारे संभावना समारोह को अधिकतम करके संचालित करते हैं।

यह वास्तव में नहीं है जो अधिकांश चिकित्सकों को बायेसियन इंजेक्शन के रूप में मानते हैं। इस तरह से मापदंडों का अनुमान लगाना संभव है, लेकिन मैं इसे बेयसियन अनुमान नहीं कहूंगा।

परिकल्पना प्रतियोगिता के लिए पश्चगामी संभाव्यता (या संभाव्यता के अनुपात) की गणना करने के लिए बायेसियन इंविज़न पश्चवर्ती वितरण का उपयोग करता है।

मोंटे कार्लो या मार्कोव-चेन मोंटे कार्लो (MCMC) तकनीकों द्वारा बाद के वितरण को अनुभवजन्य रूप से अनुमानित किया जा सकता है ।

इन भेदों को एक तरफ रखते हुए, प्रश्न

क्या बड़े नमूना आकार के साथ बायेसियन पादरी अप्रासंगिक हो जाते हैं?

अभी भी समस्या के संदर्भ पर निर्भर करता है और आप क्या परवाह करते हैं।

यदि आप जिस चीज की परवाह करते हैं, वह पहले से ही बहुत बड़े नमूने के रूप में दी गई भविष्यवाणी है, तो इसका जवाब आमतौर पर हां है, पुजारी विषम रूप से अप्रासंगिक हैं *। हालांकि, अगर आप किस चीज की परवाह करते हैं, मॉडल चयन और बायेसियन हाइपोथिसिस परीक्षण, तो जवाब नहीं है, पुजारी बहुत मायने रखते हैं, और उनका प्रभाव नमूना आकार के साथ नहीं बिगड़ जाएगा।

* यहाँ, मैं मान रहा हूँ कि पुरोहितों को संभावना से निकले पैरामीटर के स्थान से परे / सेंसर नहीं किया गया है, और यह महत्वपूर्ण क्षेत्रों में शून्य-घनत्व के साथ अभिसरण मुद्दों का कारण बनने के लिए इतने बीमार नहीं हैं। मेरा तर्क भी स्पर्शोन्मुख है, जो सभी नियमित चेतावनी के साथ आता है।

भविष्य कहनेवाला घनत्व

dN=(d1,d2,...,dN)dif(dNθ)θ

π0(θλ1)π0(θλ2)λ1λ2

πN(θdN,λj)f(dNθ)π0(θλj)forj=1,2

θθNjπN(θdN,λj)θ^N=maxθ{f(dNθ)} θ 2 एन θ एन θ *θN1θN2θ^Nθε>0

limNPr(|θNjθ|ε)=0j{1,2}limNPr(|θ^Nθ|ε)=0

θNj=maxθ{πN(θdN,λj)}

f(d~dN,λj)=Θf(d~θ,λj,dN)πN(θλj,dN)dθf(d~dN,θNj)f(d~dN,θ)

मॉडल चयन और परिकल्पना परीक्षण

यदि कोई बायेसियन मॉडल चयन और परिकल्पना परीक्षण में रुचि रखता है, तो उन्हें पता होना चाहिए कि पूर्व का प्रभाव स्पर्शोन्मुख रूप से गायब नहीं होता है।

f(dNmodel)

KN=f(dNmodel1)f(dNmodel2)
Pr(modeljdN)=f(dNmodelj)Pr(modelj)l=1Lf(dNmodell)Pr(modell)

f(dNλj)=Θf(dNθ,λj)π0(θλj)dθ

f(dNλj)=n=0N1f(dn+1dn,λj)
f(dN+1dN,λj)f(dN+1dN,θ)f(dNλ1)f(dNθ)f(dNλ2)
f(dNλ1)f(dNλ2)p1
h(dNM)=Θh(dNθ,M)π0(θM)dθ
f(dNλ1)h(dNM)f(dNλ2)h(dNM)

5

ध्यान में रखने के लिए एक और मुद्दा यह है कि आपके पास बहुत अधिक डेटा हो सकता है , लेकिन अभी भी आपके मॉडल में कुछ मापदंडों के बारे में बहुत कम जानकारी है । इस तरह के मामलों में, पहले से ही हल्के से जानकारीपूर्ण प्रदर्शन के लिए बहुत उपयोगी हो सकता है।

एक मूर्खतापूर्ण उदाहरण के रूप में, मान लीजिए कि आप दो समूहों के साधनों की तुलना कर रहे थे और आपके पास समूह 1 के 10 नमूने और समूह 2 के 10 नमूने थे। तब समूह 2 के बारे में स्पष्ट रूप से जानकारीपूर्ण होने से पहले, एक लाख से अधिक एकत्र होने पर भी आपत्ति में सुधार कर सकते हैं। नमूने हैं।

और जब वह उदाहरण तुच्छ हो सकता है, तो यह कुछ बहुत महत्वपूर्ण प्रभावों का नेतृत्व करना शुरू कर देता है। अगर हम कुछ जटिल परिघटनाओं को समझना चाहते हैं, तो हमारे द्वारा समझ में नहीं आने वाले भागों के बारे में बहुत सारी जानकारी एकत्र करना और उन हिस्सों के बारे में कम जानकारी प्राप्त करना है जिन्हें हम समझते हैं। यदि हम इस तरह से बहुत सारे डेटा एकत्र करते हैं, तो पूर्व को फेंकना क्योंकि हमारे पास बहुत अधिक डेटा है वास्तव में एक बुरा विकल्प है; हमने अभी-अभी अपना विश्लेषण वापस सेट किया है क्योंकि हम उन चीजों पर डेटा एकत्र करने में समय बर्बाद नहीं करते जिन्हें हम पहले से जानते हैं!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.