जिस पेपर को मैंने अपेक्षा-अधिकतमकरण के संबंध में स्पष्ट किया था, वह है वेलिंग और कुरिहारा द्वारा बेइज़ियन के -मीन्स को "मैक्सिमाइज़ेशन-एक्सपेक्टेशन" एल्गोरिथम (पीडीएफ) के रूप में।
मान लीजिए कि हमें एक संभाव्य मॉडल है के साथ एक्स टिप्पणियों, जेड छिपा यादृच्छिक चर, और की कुल θ मानकों। हम एक डाटासेट दिया जाता है डी और (उच्च शक्तियों द्वारा) मजबूर हैं स्थापित करने के लिए पी ( z , θ | डी ) ।p(x,z,θ)xzθDp(z,θ|D)
1. गिब्स का नमूना
हम नमूना द्वारा अनुमान लगा सकते हैं । गिब्स का नमूना वैकल्पिक रूप से p ( z , sam | D ) देता है:p(z,θ|D)p(z,θ|D)
θ∼p(θ|z,D)z∼p(z|θ,D)
2. वैरिएशन बे
इसके बजाय, हम एक वितरण स्थापित करने के लिए कोशिश कर सकते हैं और क्यू ( जेड ) और वितरण के बाद हम कर रहे हैं के साथ अंतर को कम से कम पी ( θ , z | डी ) । वितरण के बीच का अंतर एक सुविधाजनक फैंसी नाम है, केएल-विचलन। K L को कम करने के लिए [ q ( θ ) q ( z ) | | पी ( θ , z | डी ) ] हम अद्यतन:q(θ)q(z)p(θ,z|D)KL[q(θ)q(z)||p(θ,z|D)]
q(θ)∝exp(E[logp(θ,z,D)]q(z))q(z)∝exp(E[logp(θ,z,D)]q(θ))
3. अपेक्षा-अधिकतमकरण
दोनों के लिए पूर्ण विकसित संभाव्यता वितरण प्रदान करने के लिए और θ चरम पर विचार किया जा सकता है। इसके बजाय हम इनमें से एक के लिए एक बिंदु अनुमान पर विचार क्यों नहीं करते हैं और दूसरे को अच्छा और बारीक रखते हैं। ईएम में पैरामीटर θ (अधिकतम अनुमान किया हुआ) मूल्य अपने नक्शे के लिए एक पूर्ण वितरण में से एक होने अयोग्य, और सेट के रूप में स्थापित है, θ * ।zθθθ∗
θ∗=argmaxθE[logp(θ,z,D)]q(z)q(z)=p(z|θ∗,D)
यहाँ वास्तव में एक बेहतर अंकन होगा: argmax ऑपरेटर से अधिक मान लौट सकते हैं। लेकिन चलो निपिक नहीं। वैरिएबल बे की तुलना में आप देखते हैं कि एक्सप द्वारा लॉग के लिए सही करने से परिणाम में बदलाव नहीं होता है, इसलिए यह आवश्यक नहीं है।θ∗∈argmaxlogexp
4. अधिकतमकरण-अपेक्षा
को एक बिगड़ैल बच्चे के रूप में मानने का कोई कारण नहीं है । हम बस के रूप में अच्छी तरह से बिंदु का अनुमान उपयोग कर सकते हैं जेड * हमारे छिपा चर के लिए और पैरामीटर देना θ एक पूर्ण वितरण के लक्जरी।zz∗θ
z∗=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z∗,D)
If our hidden variables z are indicator variables, we suddenly have a computationally cheap method to perform inference on the number of clusters. This is in other words: model selection (or automatic relevance detection or imagine another fancy name).
5. Iterated conditional modes
Of course, the poster child of approximate inference is to use point estimates for both the parameters θ as well as the observations z.
θ∗=argmaxθp(θ,z∗,D)z∗=argmaxzp(θ∗,z,D)
To see how Maximization-Expectation plays out I highly recommend the article. In my opinion, the strength of this article is however not the application to a k-means alternative, but this lucid and concise exposition of approximation.