क्या बायेसियन पोस्टीरियर को उचित वितरण की आवश्यकता है?


21

मुझे पता है कि पादरियों को उचित नहीं होना चाहिए और संभावना है कि फ़ंक्शन 1 पर भी एकीकृत नहीं होता है। लेकिन क्या पोस्टीरियर को उचित वितरण की आवश्यकता है? यदि यह / नहीं है तो इसके क्या निहितार्थ हैं?

जवाबों:


15

(यह एक आश्चर्य पिछले जवाब है, जो जब पूर्व उचित है पीछे के संभावित अनुचित पर ध्यान केंद्रित को पढ़ने के लिए कुछ हद तक है के बाद से, जहाँ तक मैं बता सकता हूँ, प्रश्न या नहीं, पीछे हो गया है है उचित ( यानी, एक के बराबर) एक होने के लिए उचित होने के लिए (यानी, बायेसियन निष्कर्ष के लिए स्वीकार्य) पीछे।

बायेसियन आँकड़ों में, पीछे के वितरण को प्रायिकता वितरण होना होता है, जहाँ से किसी के बाद के क्षणों को व्युत्पन्न किया जा सकता है जैसे कि और एक विश्वसनीय क्षेत्र के कवरेज की तरह संभावना बयान, पी ( π ( θ | एक्स ) > κ | एक्स ) । यदि ( एक्स | θEπ[h(θ)|x]P(π(θ|x)>κ|x) पश्च π ( θ | x ) को एक प्रायिकता घनत्व में सामान्यीकृत नहीं किया जा सकता है और बायेसियन इंट्रेंस केवल संचालित नहीं किया जा सकता है। इस तरह के मामलों में बस पश्च मौजूद नहीं होता है।

f(x|θ)π(θ)dθ=+,(1)
π(θ|x)

दरअसल, (1) नमूना स्थान में सभी लिए होना चाहिए और न केवल मनाया एक्स के लिए, अन्यथा, पहले का चयन करना डेटा पर निर्भर करेगा । इसका मतलब है कि हाल्डेन की पूर्व की तरह महंतों π ( पी ) α { 1 / पी ( 1 - पी ) } , संभावना पर पी एक द्विपद या एक नकारात्मक द्विपद चर के एक्स , नहीं किया जा सकता क्योंकि पीछे के लिए निर्धारित नहीं है x = x xπ(p){1/p(1p)}pXx=0

मुझे एक अपवाद का पता है जब कोई "अनुचित डाकिया" पर विचार कर सकता है: यह डेविड वैन डाइक और जिओ-ली मेंग द्वारा "द आर्ट ऑफ डेटा ऑगमेंटेशन" में पाया गया है । अनुचित उपाय खत्म हो गया है एक तथाकथित काम कर पैरामीटर इस तरह के अवलोकन एक संवर्धित वितरण के सीमांत द्वारा निर्मित है कि ( एक्स | θ ) = टी ( एक्स अगस्त ) = x( एक्स अगस्त | θ , α )α और वैन डाइक और मेंग नेMCMC द्वारा π ( θ | x ) (जो एक संभावना घनत्व के रूप में अच्छी तरह से परिभाषित किया गया है ) के अनुकरण को गति देने के लिएइस वर्किंग पैरामीटर α परअनुचित पूर्व p ( α ) डाला।

f(x|θ)=T(xaug)=xf(xaug|θ,α)dxaug
p(α)απ(θ|x)

एक अन्य परिप्रेक्ष्य में, कुछ हद तक eretmochelys द्वारा जवाब से संबंधित , बायेसियन निर्णय सिद्धांत के एक परिप्रेक्ष्य , एक सेटिंग जहां (1) तब भी स्वीकार्य हो सकती है अगर यह इष्टतम निर्णय लेती है । अर्थात, यदि एक नुकसान समारोह निर्णय का उपयोग कर के प्रभाव का मूल्यांकन है δ , एक बायेसियन इष्टतम निर्णय से पहले के तहत π द्वारा दिया जाता है δ हिन्दी ⋆ ( एक्स ) = आर्ग मिनट δ एल ( δ , θ )L(δ,θ)0δπ और जो कुछ मामलों है कि इस अभिन्न हर जगह नहीं है (में है δ अनंत)। होना या न होना (1) धारण की व्युत्पत्ति के लिए माध्यमिक है δ हिन्दी ⋆ ( एक्स ) , भले ही स्वीकार्यता की तरह गुण केवल गारंटी दी जाती है जब (1) आयोजित करता है।

δ(x)=argminδL(δ,θ)f(x|θ)π(θ)dθ
δδ(x)

19

पूर्व वितरण उचित होने पर भी वितरण की आवश्यकता उचित नहीं है। उदाहरण के लिए, मान लीजिए में आकार 0.25 (जो कि उचित है) से पहले एक गामा है, और हम अपने डेटम x को माध्य शून्य और विचरण v के साथ गौसियन वितरण से तैयार करते हैं । मान लीजिए कि x शून्य माना जाता है। तब संभावना p ( x | v ) v - 0.5 के आनुपातिक है , जो v अनुचित के लिए पीछे के वितरण को बनाता है , क्योंकि यह v - 1.25 e - v के समानुपातिक है vxvxp(x|v)v0.5vv1.25ev। निरंतर चरों की निराला प्रकृति के कारण यह समस्या उत्पन्न होती है।


कूल उदाहरण, टॉम!
झेन

+1, हालाँकि आप ओपी के अंतिम वाक्य के उत्तर का विस्तार कर सकते हैं? क्या यह अजीब पश्चाताप सार्थक है (क्या आप उन चीजों के प्रकार कर सकते हैं, जो आप आमतौर पर एक पिछड़ेपन के साथ करते हैं), या यह कुछ गणनाओं से NaN या Inf प्राप्त करने के लिए अधिक अनुरूप है? क्या यह संकेत है कि आपके मॉडल में कुछ गड़बड़ है?
वेन

5
मॉडल में कुछ भी गलत नहीं है। यह पोस्टीरियर इस मायने में सार्थक है कि यदि आप एक और अवलोकन प्राप्त करते हैं, तो आप इसे गुणा कर सकते हैं और संभवतः एक उचित पोस्टीरियर में वापस ला सकते हैं। तो यह NaN की तरह नहीं है, जिस पर आगे के सभी ऑपरेशन NaN हैं।
टॉम मिंका

8
हालाँकि इस मामले में शायद बहुत देर हो चुकी है, मुझे नहीं लगता कि ऐसे "काउंटर-उदाहरणों" का उपयोग शुरुआती लोग करते हैं: समस्या इसलिए पैदा होती है क्योंकि आप पर गॉसियन घनत्व के एक विशिष्ट संस्करण का उपयोग करते हैं , जब इसे सेट पर मनमाने ढंग से परिभाषित किया जा सकता है। शून्य का माप। और इसलिए चुने हुए संस्करण के आधार पर पीछे उचित या अनुचित बनाते हैं। x=0
शीआन

दिलचस्प है - यदि आप सामान्य लेते हैं , तो पीछे का भाग सामान्यीकृत उलटा गॉसियन है जिसमें पैरामीटर हैं - 0.25 , 1 , x 2 । @ शीआन - इस से बाहर निकलने के लिए उचित तरीके से रास्ता देखना अच्छा होगा। x0.25,1,x2
probabilityislogic

11

सेट को परिभाषित हमारे पास पी आर ( एक्स नकली डाटा ) = नकली डाटा ( एक्स | θ

Bogus Data={x:f(xθ)π(θ)dθ=},
पिछले अभिन्न के बराबर होगा अगर की Lebesgue उपाय नकली डाटा सकारात्मक है। लेकिन यह असंभव है, क्योंकि यह अभिन्नता आपको एक संभावना ( 0 और 1 के बीच एक वास्तविक संख्या) देती है। इसलिए, यह इस प्रकार है कि के Lebesgue उपाय नकली डाटा के बराबर है 0 ज़ाहिर है, यह भी है कि इस प्रकार है, और, पी आर ( एक्स नकली डाटा ) = 0
Pr(XBogus Data)=Bogus Dataf(xθ)π(θ)dθdx=Bogus Datadx.
Bogus Data01Bogus Data0Pr(XBogus Data)=0

शब्दों में: उन नमूना मूल्यों की पूर्ववर्ती संभावित संभावना जो पश्चवर्ती अनुचित को शून्य के बराबर बनाती है।

कहानी का नैतिक: अशक्त सेटों से सावधान रहें, वे काट सकते हैं, हालांकि यह असंभव हो सकता है।

पी एस जैसा कि टिप्पणी में प्रो। रॉबर्ट द्वारा बताया गया है, यह तर्क उड़ा देता है यदि पूर्व अनुचित है।


4
आपने एक बार लिखा था : "यदि हम एक उचित पूर्व के साथ शुरू कर सकते हैं और एक अनुचित पद प्राप्त कर सकते हैं, तो मैं विरोध छोड़ दूंगा।"
टॉम मिंका

2
गाल में थोड़ी सी जीभ, एक निहित मात्रा थी: अगर हम एक उचित पूर्व के साथ शुरू कर सकते हैं और हर संभव नमूना मूल्य के लिए एक अनुचित पोस्टीरियर प्राप्त कर सकते हैं, तो मैं इंजेक्शन छोड़ दूंगा। ;-)
ज़ेन

वैसे, उल्लेखनीय स्मृति, टॉम!
ज़ेन

4
Pr(XBogus Data)(θ,x)

1
तुम सही हो। उत्तर में तर्क केवल उचित पुजारियों के साथ काम करता है। अच्छी बात। मैं एक नोट जोड़ूंगा।
ज़ेन

3

Any "distribution" must sum (or integrate) to 1. I can think a few examples where one might work with un-normalized distributions, but I am uncomfortable ever calling anything which marginalizes to anything but 1 a "distribution".

Given that you mentioned Bayesian posterior, I bet your question might come from a classification problem of searching for the optimal estimate of x given some feature vector d

x^=argmaxxPX|D(x|d)=argmaxxPD|X(d|x)PX(x)PD(d)=argmaxxPD|X(d|x)PX(x)

where the last equality comes from the fact that PD doesn't depend on x. We can then choose our x^ exclusively based on the value PD|X(d|x)PX(x) which is proportional to our Bayesian posterior, but do not confuse it for a probability!


@Zen would you mind being more explicit about what you think is wrong (or fundamentally incomplete) about this answer?
whuber

1
One way to interpret the OP question "does the posterior need to be a proper distribution?" is to ask if it is mathematically possible to start with a proper prior and end with an improper posterior. Minka's answer gives an explicit example in which it happens. I tried to complement it with my answer and point out that this can only happen inside a set of zero prior predictive probability.
Zen

1
@Zen It seems to me that a closely related interpretation is "if the posterior is not proper, what information can I get from it?" This accepted answer looks like it provides useful and correct advice related to that in a special circumstance (which is clearly described). The acceptance looks to me like a signal that eretmochelys struck home with a shrewd guess about the circumstances.
whuber

-2

Improper posterior distribution only arises when you're having an improper prior distribution. The implication of this is that the asymptotic results do not hold. As an example, consider a binomial data consisting of n success and 0 failures, if using Beta(0,0) as the prior distribution, then the posterior will be improper. In this situation, the best is to think of a proper prior distribution to substitute your improper prior.


3
This answer is incorrect. See my answer.
Tom Minka
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.