ईएम, क्या कोई सहज स्पष्टीकरण है?


16

ईएम प्रक्रिया, कम या ज्यादा काले जादू के रूप में, बिन बुलाए प्रकट होती है। पर्यवेक्षित डेटा का उपयोग करके एक HMM (उदाहरण के लिए) के अनुमानित पैरामीटर। फिर असंगत डेटा को डीकोड करें, आगे-पीछे की घटनाओं का उपयोग करके 'गणना' करें जैसे कि डेटा टैग किया गया था, कम या ज्यादा। यह मॉडल को बेहतर क्यों बनाता है? मैं गणित के बारे में कुछ नहीं जानता, लेकिन मैं इसके बारे में किसी तरह की मानसिक तस्वीर के लिए कामना करता हूं।


मुझे यकीन नहीं है, लेकिन मुझे लगता है कि यह एक स्टोकेस्टिक ढाल वंश अनुकूलन प्रक्रिया के रूप में व्याख्या करना संभव है। मैं उस बारे में
सोचूंगा

जवाबों:


12

बस कुछ टाइपिंग को बचाने के लिए, देखे गए डेटा , लापता डेटा Z (जैसे HMM के छिपे हुए राज्य) को कॉल करें , और पैरामीटर वेक्टर जिसे हम Q खोजने के लिए प्रयास कर रहे हैं (जैसे संक्रमण / उत्सर्जन संभावनाएं)।XZQ

सहज व्याख्या यह है कि हम मूल रूप से धोखा देते हैं, एक पल के लिए दिखावा करते हैं जिसे हम जानते हैं कि हम जेड का एक सशर्त वितरण पा सकते हैं जो बदले में हमें क्यू के लिए MLE ढूंढने देता है (इस तथ्य की अनदेखी करते हुए कि हम मूल रूप से एक परिपत्र बना रहे हैं तर्क), फिर स्वीकार करें कि हमने धोखा दिया है, क्यू के लिए हमारे नए, बेहतर मूल्य में डाल दिया है , और यह सब फिर से करें जब तक हमें अब और धोखा नहीं देना है।QQQ

थोड़ा और तकनीकी रूप से, यह दिखावा करके कि हम वास्तविक मूल्य जानते हैं , हम दिखावा कर सकते हैं कि हम जेड के सशर्त वितरण के बारे में कुछ जानते हैं { एक्स , क्यू } , जो हमें क्यू के लिए हमारे अनुमान में सुधार करने देता है , जिसे हम अब दिखावा करते हैं क्यू के लिए वास्तविक मूल्य है इसलिए हम दिखावा कर सकते हैं कि हम जेड के सशर्त वितरण के बारे में कुछ जानते हैं { X , Q } , जो हमें Q के लिए हमारे अनुमान में सुधार करने देता हैQZ|{X,Q}QQZ|{X,Q}Q , जो ... और इसी तरह।

तकनीकी रूप से भी, यदि हमें पता था, तो हम लॉग ( f ( Q | X , Z ) ) को अधिकतम कर सकते हैं और सही उत्तर दे सकते हैं। समस्या यह है कि हम Z को नहीं जानते हैं , और Q के लिए कोई भी अनुमान इस पर निर्भर होना चाहिए। लेकिन अगर हम जेड के लिए सबसे अच्छा अनुमान (या वितरण) खोजना चाहते हैं , तो हमें एक्स और क्यू को जानना होगा । यदि हम अनूठे मैक्सिमाइज़र को विश्लेषणात्मक रूप से चाहते हैं तो हम चिकन और अंडे की स्थिति में फंस गए हैं।Zlog(f(Q|X,Z))ZQZXQ

हमारी 'बाहर' है कि - के किसी भी आकलन के लिए (इसे कहते क्यू एन ) - हम का वितरण पा सकते हैं जेड | { क्यू एन , एक्स } , और इसलिए हम अपने अधिकतम कर सकते हैं उम्मीद की संयुक्त प्रवेश संभावना क्यू | { एक्स , जेड } , सम्मान के साथ की सशर्त वितरण के लिए जेड | { क्यू एन , एक्स } । यह सशर्त वितरण मूल रूप से हमें बताता है कि Z , Q दिए गए X के वर्तमान मूल्य पर कैसे निर्भर करता हैQQnZ|{Qn,X}Q|{X,Z}Z|{Qn,X}ZQX, और हमें पता है कि क्यू और जेड दोनों के लिए एक ही समय में क्यू के एक विशेष मूल्य के लिए हमारी संभावना बढ़ाने के लिए को कैसे बदलना है ( क्यू कि हमने क्यू एन कहा है )। एक बार जब हम एक नया बाहर चुनते ही क्यू n + 1 , हम के लिए एक अलग सशर्त वितरण जेड | { Q n + 1 , X } और इसलिए उम्मीद को फिर से गणना करना होगा।QQZQQnQn+1Z|{Qn+1,X}

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.