अपेक्षा अधिकतमकरण एल्गोरिथम को स्थानीय इष्टतम में परिवर्तित करने की गारंटी क्यों दी जाती है?


24

मैंने EM एल्गोरिथ्म (जैसे बिशप के पैटर्न मान्यता और मशीन लर्निंग से और रोजर और जेरोलामी फर्स्ट कोर्स ऑन मशीन लर्निंग से) के स्पष्टीकरण के एक जोड़े को पढ़ा है। ईएम की व्युत्पत्ति ठीक है, मैं इसे समझता हूं। मैं यह भी समझता हूं कि एल्गोरिथम किसी चीज़ को क्यों कवर करता है: प्रत्येक चरण में हम परिणाम में सुधार करते हैं और संभावना 1.0 से बंधी होती है, इसलिए एक साधारण तथ्य का उपयोग करके (यदि कोई फ़ंक्शन बढ़ता है और फिर बाध्य होता है तो यह परिवर्तित होता है) हम जानते हैं कि एल्गोरिथ्म में परिवर्तित होता है कुछ समाधान।

हालाँकि, हम कैसे जानते हैं कि यह एक स्थानीय न्यूनतम है? प्रत्येक चरण में हम केवल एक समन्वय पर विचार कर रहे हैं (या तो अव्यक्त चर या पैरामीटर), इसलिए हम कुछ याद कर सकते हैं, जैसे कि स्थानीय न्यूनतम एक ही बार में दोनों निर्देशांकों द्वारा आगे बढ़ने की आवश्यकता होती है।

मेरा मानना ​​है कि पहाड़ी चढ़ाई वाले एल्गोरिदम के सामान्य वर्ग के लिए यह एक समान समस्या है, जिसका उदाहरण ईएम है। तो एक सामान्य पहाड़ी चढ़ाई एल्गोरिथ्म के लिए हमारे पास फ़ंक्शन एफ (x, y) = x * y के लिए यह समस्या है। यदि हम (0, 0) बिंदु से शुरू करते हैं, तो केवल एक बार दोनों दिशाओं पर विचार करके हम 0 मान से ऊपर जाने में सक्षम हैं।


3
संभावना केवल निश्चित संस्करण के लिए बाध्य है। यही है, द्विपद स्थिति में, विचरण ; या गॉसियन स्थिति में, यदि विचरण ज्ञात हो। यदि विचरण अज्ञात है, और अनुमान लगाया जाना है, तो संभावना बाध्य नहीं है। इसके अलावा, ईएम एल्गोरिथ्म में, लापता और मापदंडों का एक सामान्य अलगाव है, कम से कम लगातार सांख्यिकीविदों के लिए, लेकिन सतहों में वास्तव में काठी हो सकती है। p(1p)
StasK

@Stask मुझे यकीन नहीं है कि संभावना आमतौर पर निश्चित संस्करण के साथ भी बंधी है। क्या आप कुछ विशेष परिवार तक सीमित हैं?
Glen_b -Reinstate मोनिका

जवाबों:


27

EM को स्थानीय न्यूनतम में कनवर्ट करने की गारंटी नहीं है। यह केवल मापदंडों के संबंध में शून्य ढाल के साथ एक बिंदु में परिवर्तित करने की गारंटी है। तो यह वास्तव में काठी बिंदुओं पर अटक सकता है।


1
उदाहरण के लिए, पीपी 20 और 38 यहां देखें , पी। 85 यहाँ - अमेज़न रीडर में "काठी बिंदु" का प्रयास करें
StasK

13

सबसे पहले, यह संभव है कि ईएम एक स्थानीय मंत्री , एक स्थानीय अधिकतम , या संभावना समारोह के एक काठी बिंदु में परिवर्तित हो । टॉम मिंका ने बताया कि अधिक सटीक रूप से, ईएम को शून्य ग्रेडिएंट के साथ एक बिंदु में परिवर्तित करने की गारंटी है ।

मैं इसे देखने के दो तरीकों के बारे में सोच सकता हूं; पहला दृश्य शुद्ध अंतर्ज्ञान है, और दूसरा दृश्य एक औपचारिक प्रमाण का स्केच है। सबसे पहले, मैं बहुत संक्षेप में बताऊंगा कि EM कैसे काम करता है:

एक्सपेक्टेशन मैक्सिमाइजेशन (EM) एक अनुक्रमिक बाउंड ऑप्टिमाइज़ेशन तकनीक है, जहाँ iteration , हम सबसे पहले फंक्शन the पर a (लोअर) और फिर नए सॉल्यूशन को प्राप्त करने के लिए बाउंड को अधिकतम करते हैं।tbt(θ)L(θ)θt=argmaxθbt(θ) , और ऐसा तब तक करते रहें जब तक कि नया घोल न बदल जाए।

ग्रेडिएंट एसेंट के रूप में एक्सपेक्टेशन मैक्सिमाइजेशन

प्रत्येक पुनरावृत्ति , EM को यह आवश्यक है कि बाउंड संभावना के फंक्शन को पिछली पुनरावृत्ति के समाधान पर छूता है अर्थात जो उनके ग्रेडिएंट का अर्थ भी समान है; वह है । इसलिए, EM कम से कम ढाल के रूप में अच्छा है क्योंकि कम से कम उतना ही अच्छा है जितना कि । दूसरे शब्दों में:tbtLθt1g=bt(θt1)=L(θt1)θtθt1+ηg

अगर EM, में परिवर्तित करता है, तो ग्रेडिएंट एसेंट के लिए भी एक कनवर्जेन्स पॉइंट है और EM, ग्रेडिएंट एसेंट सॉल्यूशंस (जीरो ग्रेडिएंट वैल्यू सहित) के बीच साझा की गई किसी भी प्रॉपर्टी को संतुष्ट करता है।θθ

एक औपचारिक सबूत का स्केच

एक दिखा सकता है कि सीमा और संभावना समारोह के बीच की खाई शून्य में परिवर्तित होती है; वह है एक यह साबित कर सकता है कि बाध्यता की प्रवणता भी संभावना फ़ंक्शन के ग्रेडिएंट में परिवर्तित होती है; वह है: कारण और और ईएम में उपयोग की जाने वाली सीमाएँ भिन्न हैं, और वह , हमारे पास वह और, इसलिए, ।

(1)limtL(θt)bt(θt)=0.
(2)limtL(θt)=bt(θt).
(1)(2)θt=argmaxθbt(θ)bt(θt)=0limtL(θt)=0
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.