Bayesian फिट परीक्षण की एक सामान्य अच्छाई के बराबर क्या है?


25

मेरे पास दो डेटा सेट हैं, एक भौतिक प्रेक्षणों (तापमान) के सेट से, और एक संख्यात्मक मॉडल के एक समूह से। मैं एक आदर्श-मॉडल विश्लेषण कर रहा हूं, मान लें कि मॉडल पहनावा एक सच्चे, स्वतंत्र नमूने का प्रतिनिधित्व करता है, और यह देखने के लिए कि क्या वितरण उस वितरण से तैयार किए गए हैं। मेरे द्वारा गणना की गई आँकड़ा सामान्यीकृत है, और सैद्धांतिक रूप से एक मानक सामान्य वितरण होना चाहिए। बेशक यह सही नहीं है, इसलिए मैं फिट की अच्छाई के लिए परीक्षण करना चाहता हूं।

लगातार तर्क का उपयोग करते हुए, मैं एक Cramér-von Mises आँकड़ा (या Kolmogorov-Smirnov, आदि), या इसी तरह की गणना कर सकता हूं, और पी-मान प्राप्त करने के लिए एक तालिका में मूल्य देख सकता हूं, जो मुझे यह तय करने में मदद करने के लिए कि मैं मूल्य की संभावना कितनी कम है देखें, यह देखते हुए कि मॉडल के समान ही हैं।

इस प्रक्रिया के बराबर बायेसियन क्या होगा? यही है, मैं अपने विश्वास की ताकत कैसे निर्धारित करूं कि ये दो वितरण (मेरी गणना की गई आंकड़ा और मानक सामान्य) अलग हैं?


कुछ इस तरह बिल फिट हो सकता है।
सियान

जवाबों:


23

मैं इस प्रश्न का उत्तर देने के लिए (विशेष अध्याय 6 में) एक महान स्रोत के रूप में पुस्तक बेयसियन डेटा एनालिसिस का सुझाव दूंगा और जो कुछ मैं कहने वाला हूं। लेकिन एक सामान्य तरीका है कि बेयसियंस इस समस्या पर हमला करते हैं, पोस्टीरियर प्रिडिक्टिव पी-वैल्यूज़ (पीपीपी) का उपयोग करते हैं। इससे पहले कि मैं इस समस्या को हल करूं, में कूद जाऊं और मुझे पहले नोटेशन को परिभाषित करने दें:

चलो मनाया डेटा हो सकता है और मापदंडों के वेक्टर हो। हम परिभाषित के रूप में दोहराया डेटा है कि हो सकता है मनाया गया, या, predictively में सोचने के लिए, डेटा के रूप में हम हैं कल मिलते हैं, तो प्रयोग है कि उत्पादन आज एक ही मॉडल और एक ही साथ दोहराया गया का मान जो देखे गए डेटा का उत्पादन करता है।θ y प्रतिनिधिyθyrepθyθ

ध्यान दें, हम के वितरण को परिभाषित करेंगे जो ज्ञान की वर्तमान स्थिति को भविष्य कहनेवाला वितरण पी ( y प्रतिनिधि | y ) = Θ पी ( y प्रतिनिधि | θ ) पी (yrep

p(yrep|y)=Θp(yrep|θ)p(θ|y)dθ

अब, हम मॉडल और डेटा के बीच विसंगति को परीक्षण मात्राओं को परिभाषित करके माप सकते हैं , जिस डेटा की हम जाँच करना चाहते हैं। एक परीक्षण मात्रा, या विसंगति माप , , मापदंडों और डेटा का एक स्केलर सारांश है जो डेटा की भविष्यवाणी करते समय एक मानक के रूप में उपयोग किया जाता है। टेस्ट की मात्रा बायेसियन मॉडल की जांच में भूमिका निभाती है कि परीक्षण के आंकड़े शास्त्रीय परीक्षण में खेलते हैं। हम एक परीक्षण सांख्यिकीय के लिए संकेतन को परिभाषित करते हैं , जो एक परीक्षण मात्रा है जो केवल डेटा पर निर्भर करता है; बायेसियन संदर्भ में, हम परीक्षण के आंकड़ों को सामान्य कर सकते हैं ताकि उनके पीछे के वितरण के तहत मॉडल मापदंडों पर निर्भरता की अनुमति मिल सके।टी ( y )T(y,θ)T(y)

शास्त्रीय आधार पर, परीक्षण आंकड़ा के लिए पी-मूल्य है पी सी = पीआर ( टी ( y प्रतिनिधि ) टी ( y ) | θ ) जहां संभावना के वितरण पर लिया जाता है y प्रतिनिधि के साथ θ तय की।T(y)

pC=Pr(T(yrep)T(y)|θ)
yrepθ

एक बायेसियन परिप्रेक्ष्य से, पश्चवर्ती भविष्य कहे जाने वाले वितरण के संबंध में डेटा के फिट की कमी को परीक्षण क्षेत्र की पूंछ-क्षेत्र संभावना, या पी-मान, और पश्चवर्ती सिमुलेशन का उपयोग करके मापा जा सकता है। । बायेसियन दृष्टिकोण में, परीक्षण मात्रा अज्ञात मापदंडों के कार्यों के साथ-साथ डेटा भी हो सकती है क्योंकि परीक्षण की मात्रा का मूल्यांकन अज्ञात मापदंडों के पीछे वितरण से आरेखित किया जाता है।(θ,yrep)

pB=Pr(T(yrep,θ)T(y,θ)|y)
θyrepp(θ,yrep|y)
pB=ΘIT(yrep,θ)T(y|θ)p(yrep|θ)p(θ|y)dyrepdθ,
जहां संकेतक कार्य करता । व्यवहार में हालांकि हम आमतौर पर सिमुलेशन का उपयोग करते हुए पीछे की भविष्य कहनेवाला वितरण की गणना करते हैं। I

यदि हम पहले से ही कहते हैं, , के पीछे वितरण से सिमुलेशन , तो हम केवल प्रत्येक सिम्युलेटेड लिए भविष्य कहनेवाला वितरण से एक आकर्षित कर सकते हैं ; हम अब संयुक्त पिछला वितरण, से ड्रॉ । पश्चगामी भविष्यवाणिय जाँच वास्तविक परीक्षण मात्रा और भविष्य कहनेवाला परीक्षण मात्रा । अनुमानित पी-मूल्य इन सिमुलेशन का सिर्फ अनुपात है जिसके लिए परीक्षण मात्रा बराबर है या इसके वास्तविक मूल्य से अधिक है; वह है, जिसके लिएθ y प्रतिनिधि θ एल पी ( y प्रतिनिधि , θ | y ) टी ( y , θ एल ) टी ( y प्रतिनिधि एल , θ एल ) एल टी ( y प्रतिनिधि एल , θ एल ) टी ( y , θ एल ) एल = 1 , , LθyrepθLपी(yप्रतिनिधि,θ|y)टी(y,θएल)टी(yप्रतिनिधिएल,θएल)एल

टी(yप्रतिनिधिएल,θएल)टी(y,θएल)
के लिए । एल=1,,एल

शास्त्रीय दृष्टिकोण के विपरीत, बायेसियन मॉडल की जाँच के लिए "उपद्रव मापदंडों" को संभालने के लिए विशेष तरीकों की आवश्यकता नहीं होती है। पीछे के सिमुलेशन का उपयोग करके, हम मॉडल में सभी मापदंडों पर औसतन अनुमान लगाते हैं।

एक अतिरिक्त स्रोत, एंड्रयू जेलमैन का पीपीपी के यहाँ बहुत अच्छा पेपर है: http://www.stat.columbia.edu/~gelman/research/unpublished/ppc_understand2.pdf


3

एक अपेक्षाकृत सरल संभावना: फिट की अच्छाई की चिकनी परीक्षण जैसे [1] - जो कि नल से चिकनी विचलन के संदर्भ में वैकल्पिक है, जिसे ऑर्थोगोनल पॉलीओनियम्स द्वारा निर्मित किया गया है (वजन-कार्य के रूप में शून्य घनत्व के संबंध में) अपेक्षाकृत सीधा है एक बायेसियन ढांचे पर ले जाने के बाद से, बहुपद के गुणांक नल के लचीले-लेकिन-पैरामीट्रिक विस्तार का निर्माण करते हैं।

[1]: रेनर, JCW और डीजे बेस्ट (1990),
'एक अवलोकन, फिट की अच्छाई की टेस्ट चिकना "
अंतर्राष्ट्रीय सांख्यिकी समीक्षा , 58 : 1। (APR), पीपी 9-17

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.