MCMC नमूनों से सीमांत संभावना की गणना


24

यह एक आवर्ती प्रश्न है ( इस पोस्ट , इस पोस्ट और इस पोस्ट को देखें ), लेकिन मेरे पास एक अलग स्पिन है।

मान लीजिए कि मेरे पास एक सामान्य MCMC नमूना से नमूनों का एक गुच्छा है। प्रत्येक नमूने के लिए θ , मैं लॉग संभावना का मूल्य पता logf(x|θ) और लॉग पूर्व की logf(θ) । यदि यह मदद करता है, तो मैं डेटा बिंदु प्रति लॉग संभावना के मूल्य को भी जानता हूं, logf(xi|θ) (यह जानकारी कुछ विधियों के साथ मदद करता है, जैसे कि WAIC और PSIS-LOO)।

मैं सीमांत संभावना का एक (क्रूड) अनुमान प्राप्त करना चाहता हूं, बस मेरे पास जो नमूने हैं, और संभवत: कुछ अन्य फ़ंक्शन मूल्यांकन (लेकिन एक तदर्थ एमसीएमसी पुन: निर्देशित किए बिना )।

सबसे पहले, आइए तालिका को साफ़ करें। हम सभी जानते हैं कि हार्मोनिक अनुमानक सबसे खराब अनुमानक है । पर चलते हैं। यदि आप बंद रूप में पुजारियों और डाकियों के साथ गिब्स नमूना कर रहे हैं, तो आप चिब की विधि का उपयोग कर सकते हैं ; लेकिन मुझे यकीन नहीं है कि उन मामलों के बाहर सामान्यीकरण कैसे किया जाए। ऐसी विधियां भी हैं जिनके लिए आपको नमूनाकरण प्रक्रिया (जैसे कि टेम्पर्ड पोस्टेरियर्स के माध्यम से ) को संशोधित करने की आवश्यकता होती है , लेकिन मुझे इसमें दिलचस्पी नहीं है।

मैं एक पैरामीट्रिक (या nonparametric) आकार साथ अंतर्निहित वितरण का अनुमान g(θ)लगाने के बारे में सोच रहा हूं , और फिर सामान्यीकरण निरंतर Z को 1-डी अनुकूलन समस्या (यानी, Z बीच कुछ त्रुटि को कम करता है) Zg(θ) और f(x|θ)f(θ) , नमूने पर मूल्यांकन)। सबसे सरल मामले में, मान लीजिए कि पश्च भाग लगभग सामान्य रूप से सामान्य है, मैं जी ( θ ) फिट कर सकता हूंg(θ)एक बहुभिन्नरूपी सामान्य के रूप में और लाप्लास सन्निकटन के समान कुछ मिलता है (मैं मोड की स्थिति को परिष्कृत करने के लिए कुछ अतिरिक्त फ़ंक्शन मूल्यांकन का उपयोग करना चाह सकता हूं)। हालाँकि, मैं रूप में उपयोग कर सकता है g(θ)एक अधिक लचीला परिवार जैसे कि बहुभिन्नरूपी t वितरण का एक परिवर्तनीय मिश्रण ।

मुझे लगता है कि इस विधि को केवल तभी काम करता है की सराहना करते हैं Zg(θ) करने के लिए एक उचित अनुमान होता है f(x|θ)f(θ) , लेकिन किसी भी कारण या कारण है कि यह बहुत यह करने के लिए मूर्ख होगा की चेतावनीपूर्ण कहानी? कोई भी रीडिंग जो आप सुझाएंगे?

पूरी तरह से गैरपारंपरिक दृष्टिकोण कुछ गैर-पैरामीट्रिक परिवार का उपयोग करता है, जैसे कि एक गाऊसी प्रक्रिया (जीपी), अनुमानित logf(x|θ)+logf(θ) (या कुछ अन्य गैर-रेखीय परिवर्तन के रूप में, जैसे कि वर्गमूल), और बायसियन। अंतर्निहित लक्ष्य पर अंतर्निहित रूप से एकीकृत करने के लिए चतुर्भुज ( यहां और यहां देखें )। यह एक दिलचस्प वैकल्पिक दृष्टिकोण प्रतीत होता है, लेकिन आत्मा में अनुरूप (यह भी ध्यान दें कि जीपी मेरे मामले में अनपेक्षित होगा)।


6
मुझे लगता है कि चिब, एस और जेल्ज़कोव, मैं। 2001 "मेट्रोपोलिस से मार्जिनल संभावना - हेस्टिंग्स आउटपुट" सामान्य एमसीएमसी आउटपुट को सामान्य करता है - इस दृष्टिकोण के साथ अनुभव सुनने के लिए दिलचस्पी होगी। जीपी के लिए - मूल रूप से, यह पीछे के उत्सर्जन को उबालता है, जिसे आप अन्य समस्याओं के लिए भी समझ सकते हैं। मुझे लगता है कि समस्या यह है कि आप सन्निकटन की गुणवत्ता के बारे में निश्चित नहीं हैं। मुझे भी आश्चर्य होता है कि क्या एक एमसीएमसी नमूना जीपी मॉडल के लिए आदर्श है, या क्या आपको पूंछ में अधिक निवेश करना चाहिए।
फ्लोरियन हार्टिग

2
(+1) संदर्भ के लिए धन्‍यवाद, हाजिर है - मैं इसे देखूंगा। मैं मानता हूं कि सभी मॉडल-आधारित दृष्टिकोण समस्याग्रस्त हो सकते हैं (बायेसियन क्वाडरेचर के साथ अच्छी बात यह है कि आपको अनिश्चितता का अनुमान है, हालांकि यह सुनिश्चित नहीं है कि यह कैसे कैलिब्रेटेड है)। फिलहाल मेरा मामूली लक्ष्य कुछ ऐसा करना है जो "लैप्लस सन्निकटन से बेहतर" हो।
लकेरबी

जवाबों:


26

चिब और जेलियाकोव (2001) द्वारा विस्तार दुर्भाग्य से जल्दी महंगा या अत्यधिक परिवर्तनशील हो जाता है, यही कारण है कि यह गिब्स नमूनाकरण मामलों के बाहर बहुत अधिक उपयोग नहीं किया जाता है।

हालांकि सामान्यीकरण निरंतर आकलन समस्या के कई तरीके और दृष्टिकोण हैं (जैसा कि हम पिछले हफ्ते वारविक विश्वविद्यालय में चलाए गए अनुमानित कार्यशाला में काफी विविधतापूर्ण वार्ता द्वारा सचित्र हैं , वहां उपलब्ध स्लाइड्स ), कुछ समाधान सीधे MCMC आउटपुट का शोषण करते हैं ।Z

  1. जैसा कि आपने उल्लेख किया है, न्यूटन और Raftery (1994) के हार्मोनिक माध्य अनुमानक एक संक्रामक संक्रमण होने के लिए लगभग हमेशा खराब हैं। हालांकि, वहाँ हरात्मक माध्य पहचान में बजाय एक सीमित समर्थन लक्ष्य का उपयोग करके अनंत विचरण अभिशाप से बचने के लिए तरीके हैं αको पीछे के लिए एक एचपीडी क्षेत्र के संकेतक के रूप में उठाकर। यह हार्मोनिक मतलब में पूंछ को हटाकर परिमित विचरण सुनिश्चित करता है। (विवरण में पाया जा सकता कर रहे हैंएक कागज मैं डैरेन व्रेथ के साथ लिखा थाऔर एक मेंसामान्य स्थिरांक के बारे में अध्यायसंक्षेप में जीन मिशेल मारिन के साथ लिखा।), विधि एमसीएमसी उत्पादन recyclesθ1,...,θएमपहचान के द्वाराβ( 20% कहते हैं) लक्ष्य का सबसे बड़ा मानπ(θ)(एक्स|θ)और बनानेα

    α(θ)π(θ)f(x|θ)dπ(θ|x)=1Z
    αθ1,,θMβπ(θ)f(x|θ)αके रूप में गेंदों के मिलन से अधिक एक समान उन सबसे बड़ा घनत्व पर केन्द्रित (HPD) सिमुलेशन और त्रिज्या के साथ ρ , सामान्य निरंतर का अनुमान अर्थ जेड द्वारा दिया जाता है जेड - 1 = 1θi0ρZ
    Z^1=1βM2m=1Mdouble sum overβM ball centres θi0and M simulations θmI(0,ρ)(mini||θmθi0||){π(θm)f(x|θm)}1/πd/2ρdΓ(d/2+1)1volume of ball with radius ρβMα(θm)π(θm)f(x|θm)
    if d is the dimension of θ (corrections apply for intersecting balls) and if ρ is small enough for the balls to never intersect (meaning that at best only one indicator on the balls is different from zero). The explanation for the αM2 denominator is that this is a double sum of βM2 terms:
    1βMi=1βM1Mm=1MU(θi0,ρ)(θm)same as with min×1π(θm)f(x|θm)
    with each term in θm integrating to Z1.
  2. Another approach is to turn the normalising constant Z into a parameter. This sounds like a statistical heresy but the paper by Guttmann and Hyvärinen (2012) convinced me of the opposite. Without getting too much into details, the neat idea therein is to turn the observed log-likelihood

    i=1nf(xi|θ)nlogexpf(x|θ)dx
    into a joint log-likelihood
    i=1n[f(xi|θ)+ν]nexp[f(x|θ)+ν]dx
    which is the log-likelihood of a Poisson point process with intensity function
    exp{f(x|θ)+ν+logn}
    This is an alternative model in that the original likelihood does not appear as a marginal of the above. Only the modes coincide, with the conditional mode in ν providing the normalising constant. In practice, the above Poisson process likelihood is unavailable and Guttmann and Hyvärinen (2012) offer an approximation by means of a logistic regression. To connect even better with your question, Geyer's estimate is a MLE, hence solution to a maximisation problem.
  3. π(θ|x)π(θ|x), g(θ), and to run logistic regression on the index of the distribution behind the data (1 for π(θ|x) and 0 for g(θ)). With the regressors being the values of both densities, normalised or not. This happens to be directly linked with Gelman and Meng (1997) bridge sampling, which also recycles samples from different targets. And later versions, like Meng's MLE.
  4. A different approach that forces one to run a specific MCMC sampler is Skilling's nested sampling. While I [and others] have some reservations on the efficiency of the method, it is quite popular in astrostatistics and cosmology, with software available like multinest.
  5. A last [potential if not always possible] solution is to exploit the Savage-Dickey representation of the Bayes factor in the case of an embedded null hypothesis. If the null writes as H0:θ=θ0 about a parameter of interest and if ξ is the remaining [nuisance] part of the parameter of the model, assuming a prior of the form π1(θ)π2(ξ), the Bayes factor of H0 against the alternative writes as
    B01(x)=πθ(θ0|x)π1(θ0)
    where πθ(θ0|x) denotes the marginal posterior density of θ at the specific value θ0. In case the marginal density under the null H0:θ=θ0
    m0(x)=Ξf(x|θ0,ξ)π2(ξ)dξ
    is available in closed form, one can derive the marginal density for the unconstrained model
    ma(x)=Θ×Ξf(x|θ,ξ)π1(θ)π2(ξ)dθdξ
    from the Bayes factor. (This Savage-Dickey representation relies on specific versions of three different densities and so is fraught with danger, not even mentioning the computational challenge of producing the marginal posterior.)

[Here is a set of slides I wrote about estimating normalising constants for a NIPS workshop last December.]


2
(+1) Incredibly rich answer, thank you. This will be useful to me and, I suppose, many other people. It will take me some time to have a look at the various approaches, and then I might come back with specific questions.
lacerbi

2
Starting from point (1)... I read the relevant articles. The "corrected" harmonic mean estimator seems exactly what I was looking for. It's neat and easy to compute given a MCMC output. So... what's the catch? It doesn't look like the method is being widely used, judging from a quick search on Google Scholar. What are its limitations? (besides the need to identify the HPD regions, which I imagine might become an issue for very complicated posteriors in high dimension). I am definitely going to give it a try -- but I wonder if there is something I need to be wary of.
lacerbi

2
I added a few more details: the issue in implementing the HPD uniform is to figure out a proper compact approximation for the HPD region. The convex hull of points with high posterior values is (NP?) hard to determine while balls centred at those points may intersect, which creates a secondary normalising constant problem.
Xi'an

2
@Xi'an : very helpful, thanks! Can I ask: of all the mentioned approaches, what would currently be your recommendation if one looks for a general approach that tends to work out of the box (i.e. no tuning / checking required from the user)? I would be especially interested in the case of models with a low (< 50) number of parameters, non-normal posteriors, and strong correlations between parameters.
Florian Hartig

1
@FlorianHartig: the fact that a generic software like BUGS does not return a generic estimate of Z is sort of revealing the extent of the problem. The many solutions that one can find in the specialised literature have not produced a consensus estimate. Hence, my recommendation would be to opt for Geyer's logistic regression solution, which is somewhat insensitive to dimension.
Xi'an
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.