क्यों मिश्रण मॉडल के लिए उम्मीद अधिकतमकरण महत्वपूर्ण है?


15

मिश्रण के मॉडल (मिक्सचर ऑफ गॉसियन, हिडन मार्कोव मॉडल इत्यादि) पर एक्सपेक्टेशन मैक्सिमाइजेशन मेथड पर जोर देने वाले कई साहित्य हैं।

क्यों महत्वपूर्ण है EM? EM केवल अनुकूलन करने का एक तरीका है और व्यापक रूप से ग्रेडिएंट आधारित विधि (ग्रेडिएंट सभ्य या न्यूटन / क्वासी-न्यूटन विधि) या अन्य ग्रेडिएंट फ्री विधि के रूप में यहां चर्चा नहीं की जाती है । इसके अलावा, EM में अभी भी स्थानीय मिनीमा समस्या है।

क्या यह इसलिए है क्योंकि प्रक्रिया सहज है और आसानी से कोड में बदल सकती है? या और क्या कारण हैं?

जवाबों:


14

सिद्धांत रूप में, EM और मानक अनुकूलन दृष्टिकोण दोनों फिटिंग मिश्रण वितरण के लिए काम कर सकते हैं। ईएम की तरह, उत्तल अनुकूलन सॉल्वर एक स्थानीय इष्टतम में परिवर्तित होगा। लेकिन, कई स्थानीय ऑप्टिमा की उपस्थिति में बेहतर समाधान खोजने के लिए विभिन्न प्रकार के अनुकूलन एल्गोरिदम मौजूद हैं। जहाँ तक मुझे जानकारी है, सर्वश्रेष्ठ अभिसरण गति वाला एल्गोरिथ्म समस्या पर निर्भर करेगा।

ईएम का एक लाभ यह है कि यह स्वाभाविक रूप से हर पुनरावृत्ति पर मिश्रण वितरण के लिए वैध मापदंडों का उत्पादन करता है। इसके विपरीत, मानक अनुकूलन एल्गोरिदम को लगाने के लिए बाधाओं की आवश्यकता होगी। उदाहरण के लिए, मान लीजिए कि आप एक गाऊसी मिश्रण मॉडल को फिट कर रहे हैं। एक मानक nonlinear प्रोग्रामिंग दृष्टिकोण को सकारात्मक अर्धचालक होने के लिए सहसंयोजक matrices को विवश करने की आवश्यकता होगी, और एक के लिए nonnegative और योग होने के लिए मिश्रण घटक भार को विवश करना होगा।

उच्च आयामी समस्याओं पर अच्छा प्रदर्शन प्राप्त करने के लिए, एक nonlinear प्रोग्रामिंग सॉल्वर को आमतौर पर ढाल का फायदा उठाने की आवश्यकता होती है। तो, आपको या तो ग्रेडिएंट को प्राप्त करना होगा या इसे स्वचालित भेदभाव के साथ गणना करना होगा। यदि कोई मानक प्रपत्र नहीं है, तो रोगियों को बाधा कार्यों के लिए भी आवश्यक है। न्यूटन की विधि और संबंधित दृष्टिकोण (जैसे विश्वास क्षेत्र के तरीके) को हेस्सियन की भी आवश्यकता है। यदि ग्रेडिएंट अनुपलब्ध है तो परिमित विभेदक या व्युत्पन्न-मुक्त विधियों का उपयोग किया जा सकता है, लेकिन मापदंडों की संख्या बढ़ने पर प्रदर्शन खराब हो जाता है। इसके विपरीत, EM को ग्रेडिएंट की आवश्यकता नहीं होती है।

EM वैचारिक रूप से सहज है, जो एक महान गुण है। यह अक्सर मानक अनुकूलन दृष्टिकोणों के लिए भी होता है। कई कार्यान्वयन विवरण हैं, लेकिन समग्र अवधारणा सरल है। अक्सर मानक अनुकूलन सॉल्वरों का उपयोग करना संभव होता है जो इन विवरणों को हुड के नीचे दूर करते हैं। इन मामलों में, एक उपयोगकर्ता को बस उद्देश्य फ़ंक्शन, बाधाओं और ग्रेडिएंट्स की आपूर्ति करनी होती है, और एक सोल्वर का चयन करने के लिए पर्याप्त कार्य ज्ञान होता है जो समस्या के लिए अच्छी तरह से अनुकूल है। लेकिन, विशिष्ट ज्ञान निश्चित रूप से आवश्यक है अगर यह उस बिंदु पर पहुंच जाता है जहां उपयोगकर्ता को अनुकूलन एल्गोरिथ्म के निम्न-स्तरीय विवरणों के बारे में सोचना या लागू करना है।

EM एल्गोरिथ्म का एक और लाभ यह है कि इसका उपयोग उन मामलों में किया जा सकता है जहां कुछ डेटा मान गायब हैं।

ब्याज की भी (टिप्पणियों सहित):


मिश्रण मॉडल के मामले में बाधाओं को अक्सर पुनर्मूल्यांकन द्वारा लागू किया जा सकता है। Eg को और पर अनुकूलित करके किया जा सकता है । ipi=1qiRpi=exp(qi)jexp(qj)
बायरज

1
हाँ, यह निश्चित रूप से सच है। यह उपयोगकर्ता के परिप्रेक्ष्य (जो इसे कोड करना है) से बाधाओं को लागू करने का एक रूप होगा, लेकिन विलायक के परिप्रेक्ष्य (जो अब सीधे संबंधित बाधा प्राप्त नहीं करता है) का नहीं। एक और चाल: एक सहसंयोजक मैट्रिक्स को असंयुक्त मैट्रिक्स का उपयोग करके व्यक्त किया जा सकता है , जहां । लेकिन, यह सीधे उपयोग करने और एक सकारात्मक अर्ध-सममित मैट्रिक्स होने के लिए विवश करने की तुलना में गणना और मापदंडों की संख्या दोनों को बढ़ाता है । CUC=UTUC
user20160

हां, उपयोगकर्ता के लिए इसे सॉल्वर से शिफ्ट करने के लिए अच्छा परिप्रेक्ष्य। आप केवल त्रिकोणीय पर भी विचार कर सकते हैं । इस तरह, आप सिस्टम को निर्दिष्ट नहीं करते हैं क्योंकि अधिकांश पैरामीटर । U0
बायरज

राइट, राइट, चोल्स्की अपघटन। काफी बेहतर।
user20160

1
+1 शानदार जवाब! क्या आप अधिक व्याख्या कर सकते हैं "यह स्वाभाविक रूप से हर पुनरावृत्ति पर मिश्रण वितरण के लिए वैध पैरामीटर पैदा करता है"? अन्य तरीकों के लिए, हमारे पास अभी भी प्रत्येक पुनरावृत्ति के लिए निर्णय चर मान हैं, है ना?
हितैओ दू

2

मुझे लगता है कि user20160 का उत्तर बहुत अच्छी व्याख्या प्रदान करता है, सबसे महत्वपूर्ण कारण जो ढाल आधारित तरीकों को उपयुक्त नहीं बनाता है वह है कोविरियस मैट्रिसेज़ के लिए सकारात्मक अर्धचालक होने के लिए कसना, और मिश्रण गुणांक गैर-गुणात्मक और एक तक योग होना।

केवल यह इंगित करना चाहते हैं कि यदि हम कोवरियन मेट्रिसेस को विकर्ण होने से रोकते हैं, तो इन दो बाधाओं को आसानी से व्यक्त किया जा सकता है।

एक विकर्ण सहसंयोजक मैट्रिक्स के रूप में लिखा जा सकता है मिश्रण गुणांक एक सॉफ्टमैक्स के माध्यम से जा सकता है, फिर दो बाधाएं संतुष्ट हैं, और ग्रेडिएंट का मूल्यांकन केवल पीठ के प्रसार द्वारा कहा जा सकता है।

Σ=[σ12σN2]
ϕk=epk/Kepi

इसके अलावा यह हमें वेरिएबल लोअर बाउंड (ELBO) के बजाय वास्तविक संभावना के लिए सीधे अनुकूलन करने की अनुमति देता है, इस प्रकार अव्यक्त चर की आवश्यकता को हटा देता है।

हालांकि इस तरह के मामलों में भी EM अक्सर ढाल सभ्य की तुलना में एक बेहतर एल्गोरिदम बन जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.