किसी को भी समझा सकता है सरल संभव शब्दों में पादरियों को?


23

मैं कुछ समय के लिए बायेसियन आँकड़ों में संयुग्म पुजारियों के विचार को समझने की कोशिश कर रहा हूं, लेकिन मुझे बस नहीं मिला। क्या कोई इस विचार को सरलतम संभव शब्दों में समझा सकता है, शायद उदाहरण के तौर पर "गाऊसी पूर्व" का उपयोग कर रहा है?

जवाबों:


23

एक पैरामीटर के लिए पूर्व में लगभग हमेशा कुछ विशिष्ट कार्यात्मक रूप होंगे (घनत्व के संदर्भ में लिखे गए, आमतौर पर)। मान लें कि हम वितरण के एक विशेष परिवार के लिए खुद को सीमित करते हैं, उस स्थिति में उस परिवार के मापदंडों को चुनने के लिए हमारे पूर्व को कम करता है।

उदाहरण के लिए, एक सामान्य मॉडल पर विचार । सरलता के लिए, आइए ज्ञात के रूप में icity 2 भी लें । मॉडल का यह हिस्सा - डेटा के लिए मॉडल - संभावना फ़ंक्शन को निर्धारित करता है।YiiidN(μ,σ2)σ2

हमारे बायेसियन मॉडल को पूरा करने के लिए, यहां हमें लिए पूर्व की आवश्यकता है ।μ

जैसा कि ऊपर उल्लेख किया गया है, आमतौर पर हम लिए हमारे पूर्व के लिए कुछ वितरण परिवार निर्दिष्ट कर सकते हैं और फिर हमें केवल उस वितरण के मापदंडों को चुनना होगा (उदाहरण के लिए, अक्सर पूर्व जानकारी काफी अस्पष्ट हो सकती है - जैसे कि जहां हम ध्यान केंद्रित करने की संभावना चाहते हैं - बहुत विशिष्ट कार्यात्मक रूप के बजाय, और हमारे पास पर्याप्त स्वतंत्रता हो सकती है कि हम क्या चाहते हैं कि हम मापदंडों का चयन करके - एक पूर्व माध्य और भिन्नता से मेल खाने के लिए कहें)।μ

यदि यह पता चला है कि लिए पीछे वाला एक ही परिवार से है, तो उस पूर्व को "संयुग्म" कहा जाता है।μ

(क्या यह संयुग्म होने की संभावना को जोड़ती है जिस तरह से यह संभावना के साथ जोड़ती है)

तो इस मामले में, के लिए एक गाऊसी पहले लेते हैं (कहना μ ~ एन ( θ , τ 2 ) )। यदि हम ऐसा करते हैं, तो हम देखते हैं कि μ के लिए पश्चगामी भी गॉसियन है। नतीजतन, गॉसियन पूर्व हमारे मॉडल के लिए एक संयुग्म पूर्व था।μμN(θ,τ2)μ

यह सब वहाँ वास्तव में है - अगर पीछे एक ही परिवार से पूर्व के रूप में है, यह एक संयुग्म पूर्व है।

सरल मामलों में आप संभावना के निरीक्षण से पहले एक संयुग्म की पहचान कर सकते हैं। उदाहरण के लिए, एक द्विपद संभावना पर विचार करें; स्थिरांक को छोड़ने पर, यह में एक बीटा घनत्व जैसा दिखता है ; और पी और ( 1 - पी ) की शक्तियों के संयोजन के कारण, यह एक बीटा से पहले गुणा करेगा पी और ( 1 - पी ) की शक्तियों का एक उत्पाद देने के लिए ... इसलिए हम तुरंत संभावना से देख सकते हैं कि बीटा द्विपद संभावना में पी के लिए पहले एक संयुग्म होगा ।pp(1p)p(1p)p

गाऊसी मामले में यह देखना आसान है कि यह लॉग-डेन्सिटी और लॉग-लाइबिलिटी पर विचार करके होगा; लॉग-लाइकैलिटी में द्विघात होगा और दो क्वाड्रैटिक्स का योग द्विघात है, इसलिए एक द्विघात लॉग-पूर्व + द्विघात लॉग-समानता एक द्विघात पोस्टीरियर देता है (उच्चतम क्रम अवधि के प्रत्येक गुणांक निश्चित रूप से नकारात्मक होगा)।μ


9

यदि आपका मॉडल, के अंतर्गत आता है, तो घातीय परिवार , कि है, अगर वितरण का घनत्व फार्म की है

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
एक के संबंध मेंदिए गए हावी उपाय(Lebesgue, गिनती, और टीसी।), जहांts अर्थ है एक अदिश से अधिक उत्पादRd और
T:XRdS:ΘRd
औसत दर्जे का काम करता है, पर संयुग्म महंतों हैंθ प्रपत्र के घनत्व द्वारा परिभाषित कर रहे
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[एक के संबंध मेंमनमाने ढंग से चुने हुए हावी उपाय dν परΘ साथ]
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
औरλΛR+ ,ξΞλT(X)

पुरोहितों के परिवार के लिए वर्चस्वकारी उपाय का चुनाव निर्धारक है। उदाहरण के लिए यदि कोई व्यक्ति ग्लेन_ब के उत्तर में μ पर सामान्य मतलब की संभावना का सामना करता है, तो लेब्सगर्ल उपाय dμ करता है क्योंकि हावी होने के कारण सामान्य पुजारी संयुग्मित हो जाते हैं। बजाय एक चुनता है (1+μ2)2dμ हावी उपाय के रूप में, संयुग्म महंतों घनत्व के साथ वितरण के परिवार के भीतर हैं

exp{α(μμ0)2}α>0,  μ0R
के साथ इस हावी उपाय के संबंध में, और इस तरह अब सामान्य महंतों हैं। यह कठिनाई अनिवार्य रूप से इस पैरामीटर के लिए लेबेस लीग उपाय के लिए संभावना के एक विशेष पैरामीटर को चुनने और ओप्टींग को चुनने के समान है। जब एक संभावना समारोह का सामना करना पड़ता है, तो पैरामीटर स्पेस पर कोई अंतर्निहित (या आंतरिक या संदर्भ) हावी होने वाला उपाय नहीं होता है।

इस घातीय पारिवारिक सेटिंग के बाहर, एक निश्चित समर्थन के साथ वितरण का कोई गैर-तुच्छ परिवार नहीं है जो संयुग्मक पुजारियों के लिए अनुमति देता है। यह डार्मोइस-पिटमैन-कोपमैन लेम्मा का एक परिणाम है ।


11
"सबसे सरल संभव शब्दों में?" शायद एक स्पष्टीकरण जो उपायों के पूर्व ज्ञान को नहीं मानता है, वह ओपी के लिए अधिक उपयोगी होगा।

3
अफसोस, मुझे डर है कि संयुग्मक पादरी एक माप पृष्ठभूमि के बिना निरर्थक हैं (भले ही यह ब्रह्मांड में सबसे अच्छा रखा गया रहस्य है)।
शीआन

6
मेरी राय में, "सरलतम संभव शब्द" व्याख्या के लिए खुला है, और एक स्पष्टीकरण जो उन्नत गणित का उपयोग करता है जैसे कि माप सिद्धांत अभी भी कुछ अर्थों में "सरल" हो सकता है, शायद एक स्पष्टीकरण से भी "सरल" जो इस तरह की मशीनरी से बचा जाता है। किसी भी मामले में, इस तरह की व्याख्या किसी ऐसे व्यक्ति के लिए बहुत ज्ञानवर्धक हो सकती है, जिसके पास इसे समझने के लिए आवश्यक पृष्ठभूमि हो, और किसी विषय की व्याख्या करने के लिए विभिन्न तरीकों की सूची में इस तरह से उत्तर शामिल करना हानिरहित है। हम न केवल ओपी के लिए बल्कि भविष्य के सभी पाठकों के लिए उत्तर लिखते हैं।
छोटू

1
अगर आप एक या एक से अधिक प्रश्नों से जुड़ सकते हैं, तो आपको लगता है कि यह उत्तर विषय पर और अधिक उपयुक्त स्तर पर होगा। कृपया ध्यान रखें कि "सरल" एक अच्छी तरह से परिभाषित शब्द नहीं है और इसमें व्यक्तिपरक व्याख्याएं हैं। भले ही, यह आपकी टिप्पणियों द्वारा सुझाए गए "गणितीय रूप से अपरिष्कृत," के साथ भ्रमित करने के लिए अमान्य होगा।
whuber

2
शीआन का जवाब मेरे लिए बेकार नहीं है। मैंने कुछ सीखा।
छोटू

2

I like using the notion of a "kernel" of a distribution. This is where you only leave in the parts that depend on the parameter. A few simple examples.

p(μ|a,b)=K1×exp(aμ2+bμ)
Where K is the "normalising constant" K=exp(aμ2+bμ)dμ=πaexp(b24a)E(μ|a,b)=b2aVar(μ|a,b)=12a

Beta kernel

p(θ|a,b)=K1×θa(1θ)b
Where K=θa(1θ)bdθ=Beta(a+1,b+1)

When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

For some constant Q and some function f(μ). If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood. If we take the normal likelihood with unit variance, the above looks like

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.


1
(+1) I appreciate the pseudo-data intuition!
Xi'an

1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior


How does this explain what a conjugate prior is?
LBogaardt

ok I'll edit that.
Thomas G.
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.