उदाहरणों को उछालने के लिए अपेक्षा अधिकतमकरण को लागू करना


18

मैं हाल ही में एक्सपेक्टेशन मैक्सिमाइजेशन का स्व-अध्ययन कर रहा हूं, और इस प्रक्रिया में खुद को कुछ सरल उदाहरणों से पकड़ लिया है:

से यहाँ : वहाँ तीन सिक्के हैं , और साथ , और जब फेंक दिया सिर पर लैंडिंग के लिए संबंधित संभावना। टॉस । यदि परिणाम हेड है, तो तीन बार, अन्यथा तीन बार टॉस करें । और द्वारा निर्मित अवलोकन डेटा इस प्रकार है: HHH, TTT, HHH, TTT, HHH। छिपा हुआ डेटा का परिणाम है । , और अनुमान ।सी0सी1सी2पी0पी1पी2सी0सी1सी2सी1सी2सी0पी0पी1पी2

और से यहाँ : वहाँ दो सिक्के हैं और साथ और सिर पर उतरने जब फेंक दिया के लिए संबंधित संभावना जा रहा है। प्रत्येक दौर, यादृच्छिक पर एक सिक्के का चयन करें और इसे दस बार टॉस करें; परिणाम रिकॉर्ड करें। देखा गया डेटा इन दो सिक्कों द्वारा प्रदान किया गया टॉस परिणाम है। हालाँकि, हम नहीं जानते कि किसी विशेष दौर के लिए किस सिक्के का चयन किया गया था। और अनुमान ।सीसीबीपीपीबीपीपीबी

जब मैं गणना प्राप्त कर सकता हूं, तो मैं उन तरीकों से संबंधित नहीं हो सकता जो वे मूल ईएम सिद्धांत पर हल किए गए हैं। विशेष रूप से, दोनों उदाहरणों के एम-स्टेप के दौरान, मैं नहीं देखता कि वे किसी भी चीज़ को कैसे बढ़ा रहे हैं। ऐसा लगता है कि वे मापदंडों को पुनर्गठित कर रहे हैं और किसी भी तरह, नए पैरामीटर पुराने की तुलना में बेहतर हैं। इसके अलावा, दो ई-स्टेप भी मूल सिद्धांत के ई-स्टेप का उल्लेख नहीं करने के लिए एक दूसरे के समान नहीं लगते हैं।

तो ये उदाहरण वास्तव में कैसे काम करते हैं?


पहले उदाहरण में, एक ही प्रयोग के कितने उदाहरण हमें मिलते हैं? दूसरे उदाहरण में, "यादृच्छिक पर एक सिक्का चुनें" का कानून क्या है? हम कितने दौर का निरीक्षण करते हैं?
राफेल

मेरे द्वारा पहले से लिंक की गई पीडीएफ फाइलें इन दो उदाहरणों को चरण-दर-चरण हल करती हैं। हालाँकि, मैं वास्तव में इस्तेमाल किए गए EM एल्गोरिथ्म को नहीं समझता।
१३:२३ बजे इस्सीसेन

@ इस्कॉन, क्या आप एक यादृच्छिक चर की अपेक्षा और सशर्त अपेक्षा की अवधारणा को समझते हैं?
निकोलस मंचुसो

मैं एक यादृच्छिक चर और सशर्त संभाव्यता की बुनियादी अपेक्षा को समझता हूं। हालाँकि, मैं सशर्त अपेक्षा, इसकी व्युत्पन्न और पर्याप्त आँकड़ों से परिचित नहीं हूँ।
IcySnow

जवाबों:


12

(यह उत्तर आपके द्वारा दिए गए दूसरे लिंक का उपयोग करता है।)

L[θ|X]=Pr[X|θ]=ZPr[X,Z|θ]
θ=(θA,θB)X=(X1,,X5)XiZ=(Z1,,Z5)

हम अधिकतम संभावना अनुमानक खोजना चाहते हैं । एक्सपेक्टेशन-मैक्सिमाइजेशन (ईएम) एल्गोरिदम एक ऐसी विधि है जो कम से कम (कम से कम स्थानीय) को खोजने की है । यह सशर्त अपेक्षा को खोजने के द्वारा काम करता है, जिसका उपयोग तब अधिकतम करने के लिए किया जाता है । विचार यह है कि प्रत्येक पुनरावृत्ति में लगातार अधिक संभावना (यानी अधिक संभावित) को खोजने से हम लगातार बढ़ाएंगे, जिससे फ़ंक्शन की संभावना बढ़ जाती है। ईएम-आधारित एल्गोरिथ्म को डिजाइन करने से पहले तीन चीजें हैं जिन्हें करने की आवश्यकता है। θ θθपीआर[एक्स,जेड| θ]θ^θ^θθपीआर[एक्स,जेड|θ]

  1. मॉडल का निर्माण
  2. मॉडल के तहत सशर्त उम्मीद की गणना (ई-स्टेप)
  3. हमारे (M-Step) के वर्तमान अनुमान को अपडेट करके हमारी संभावना को अधिकतम करेंθ

मॉडल का निर्माण

इससे पहले कि हम ईएम के साथ आगे बढ़ें हमें यह पता लगाने की आवश्यकता है कि वास्तव में यह क्या है हम कंप्यूटिंग कर रहे हैं। ई-चरण में हम the लिए अपेक्षित मूल्य की गणना कर रहे हैं । तो क्या यह मूल्य है, वास्तव में? ध्यान रखें कि इसका कारण यह है कि हमारे पास खाते के लिए 5 प्रयोग हैं, और हम नहीं जानते कि प्रत्येक में किस सिक्के का उपयोग किया गया था। असमानता कारण हैलॉग इन Pr [ X , Z | θ ]लॉगपीआर[एक्स,जेड|θ]लॉग

लॉगपीआर[एक्स,जेड|θ]=Σमैं=15लॉगΣसी{,बी}पीआर[एक्समैं,जेडमैं=सी|θ]=Σमैं=15लॉगΣसी{,बी}पीआर[जेडमैं=सी|एक्समैं,θ]पीआर[एक्समैं,जेडमैं=सी|θ]पीआर[जेडमैं=सी|एक्समैं,θ]Σमैं=15Σसी{,बी}पीआर[जेडमैं=सी|एक्समैं,θ]लॉगपीआर[एक्समैं,जेडमैं=सी|θ]पीआर[जेडमैं=सी|एक्समैं,θ]
लॉगअवतल होना और जेनसन की असमानता को लागू करना। हमें निम्न बाउंड की आवश्यकता होती है, इसलिए हम सीधे आर्गे अधिकतम की गणना मूल समीकरण से नहीं कर सकते हैं। हालाँकि हम इसे अंतिम निचले बाउंड के लिए गणना कर सकते हैं।

अब क्या है? यह संभावना है कि हम सिक्का को प्रयोग और । सशर्त संभावनाओं का उपयोग करते हुए, हमारे पाससी एक्स मैं θ पीआर [ जेड मैं = सी | एक्स मैं , θ ] = पीआर [ एक्स मैं , जेड मैं = सी | θ ]Pr[Zi=C|Xi,θ]CXiθ

Pr[Zi=C|Xi,θ]=Pr[Xi,Zi=C|θ]Pr[Xi|θ].

जबकि हमने कुछ प्रगति की है, हम अभी तक मॉडल के साथ नहीं हुए हैं। क्या संभावना है कि किसी दिए गए सिक्के ने अनुक्रम फ़्लिप किया ? दे अब स्पष्ट रूप से केवल या की दोनों संभावनाओं के तहत संभावना है । चूँकि हमारे पास, h i = # हेड इन  X i Pr [ X i , Z i = C | θ ] = 1Xihi=#heads in Xi Pr[Xi| θ]जेडमैं=एकजेडमैं=बीपीआर[जेडमैं=एक]=पीआर[जेडमैं=बी]=1/2

Pr[Xi,Zi=C|θ]=12θChi(1θC)10hi,  for  C{A,B}.
Pr[Xi|θ]Zi=AZi=BPr[Zi=A]=Pr[Zi=B]=1/2
Pr[Xi|θ]=1/2(Pr[Xi|Zi=A,θ]+Pr[Xi|Zi=B,θ]).

ई-कदम

ठीक है ... यह बहुत मजेदार नहीं था, लेकिन हम अब कुछ ईएम काम करना शुरू कर सकते हैं। EM एल्गोरिथ्म लिए कुछ यादृच्छिक अनुमान लगाकर शुरू होता है । इस उदाहरण में हमारे पास । हम यह मान कागज में क्या है, के साथ है। अब हम में सिर की अपेक्षित संख्या की गणना कर सकता सिक्का से , सिक्का लिए एक ही काम करना, हमें मिलता है, θ 0 = ( 0.6 , 0.5 ) पीआर [ जेड 1 = एक | एक्स 1 , θ ] = 1 / 2 ( 0.6 50.4 5 )θθ0=(0.6,0.5)

Pr[Z1=A|X1,θ]=1/2(0.650.45)1/2((0.650.45)+(0.550.55))0.45.
X1=(H,T,T,T,H,H,T,H,T,H)A
E[#heads by coin A|X1,θ]=h1Pr[Z1=A|X1,θ]=50.452.2.
B
E[#heads by coin B|X1,θ]=h1Pr[Z1=B|X1,θ]=50.552.8.
हम लिए को प्रतिस्थापित करके पूंछ की संख्या के लिए समान गणना कर सकते हैं । यह और अन्य सभी मूल्यों के लिए जारी है । अपेक्षा की रैखिकता के लिए धन्यवाद, हम h110h1Xihi 1i5
E[#heads by coin A|X,θ]=i=15E[#heads by coin A|Xi,θ]

एम-कदम

हाथ में हमारे अपेक्षित मानों के साथ, अब एम कदम जहाँ हम अधिकतम करना चाहते हैं आता है हमारे अपेक्षित मानों दिया। यह सामान्य सामान्यीकरण द्वारा किया जाता है! इसी तरह । यह प्रक्रिया ई-स्टेप और साथ फिर से शुरू होती है और तब तक जारी रहती है, जब तक कि _ अभिसरण (या कुछ स्वीकार्य थ्रेसहोल्ड) के लिए मान परिवर्तित नहीं हो जाते। इस उदाहरण में हमारे पास 10 पुनरावृत्तियों और । प्रत्येक पुनरावृत्ति में बेहतर अनुमान के कारण, का मान बढ़ता हैθ

θ1=[#पर सिर एक्स सिक्के से |एक्स,θ][#सिर और पूंछ पर एक्स सिक्के से |एक्स,θ]=21.321.3+9.60.71।
बीθ1θθ^=θ10=(0.8,0.52)पीआर[एक्स,जेड|θ]θ

अब इस मामले में मॉडल काफी सरल था। चीजें बहुत अधिक जटिल हो सकती हैं बहुत जल्दी, हालांकि ईएम एल्गोरिथ्म हमेशा अभिसरण करेगा, और हमेशा एक अधिकतम संभावना अनुमानक उत्पादन करेगा । यह एक स्थानीय अनुमानक हो सकता है , लेकिन इसके आस-पास प्राप्त करने के लिए हम एक अलग आरंभीकरण के साथ EM प्रक्रिया को पुनः आरंभ कर सकते हैं। हम इसे लगातार कर सकते हैं और सर्वोत्तम परिणामों को बनाए रख सकते हैं (यानी, उच्चतम अंतिम संभावना वाले लोग)।θ^


यदि कोई भाग स्पष्ट नहीं है, तो मैं उन्हें भी विस्तारित करने का प्रयास कर सकता हूं।
निकोलस मंचुसो

यह अब बहुत साफ हो गया है। वास्तव में मुझे क्या नहीं मिलता है क्यों सिक्का ए के लिए अपेक्षित संख्याओं की गणना इस प्रकार की गई थी: ई [सिक्का द्वारा सिक्का # X1; |] = h1⋅Pr [Z1 = A | X1; θ] = 5⋅0.45 ≈2.2? पहले पीडीएफ में वर्णित समस्या अधिक जटिल है। यदि आपको कोई आपत्ति नहीं है, तो क्या आप इसके लिए कुछ गणना कर सकते हैं? आपके उत्तर के लिए बहुत धन्यवाद।
इशीसेन

@ इस्सेवॉ, जहाँ तक प्रत्याशा कैल्क जाती है: । कारण यह है कि यदि आप A का उपयोग किया गया था, तो एक और संकेतक यादृच्छिक चर होने के बारे में सोच सकते हैं। सूचक चर पर कम्प्यूटिंग अपेक्षा उस घटना की संभावना को सरल करती है। E[# heads by coin A|X1,θ]=# heads in X1Pr[Z1=A|X1,θ]=5Pr[Z1=A|X1,θ]
निकोलस मंचुसो

धीमे उत्तर के लिए क्षमा करें। आपके उत्तर के माध्यम से कई बार जाने के बाद, धन्यवाद, मैं अब वास्तव में दो सिक्के के उदाहरण के पीछे के तर्क को समझ सकता हूं। इस प्रश्न के संबंध में एक अंतिम बात मैं पूछना चाहता हूं: इस स्लाइड में पेज 8 से शुरू होने वाला उदाहरण cs.northwestern.edu/~ddowney/courses/395_Winter2010/em.ppt दिखाता है कि M-Step में, हमें पहले गणना करनी है लॉग-लाइबिलिटी फ़ंक्शन के व्युत्पन्न और अपेक्षा को अधिकतम करने के लिए इसका उपयोग करते हैं। सिक्के में ऐसा कुछ क्यों नहीं है जो एम-स्टेप्स का उदाहरण देता है? क्योंकि ये M- स्टेप्स नहीं लगते हैं कि वे किसी भी चीज़ को अधिकतम कर रहे हैं
I'SSnow

मैं "मॉडल का निर्माण" करने के बाद पहले प्रदर्शित समीकरण से भ्रमित हूं। क्या आप बता सकते हैं कि कहां से आया है? यह मुझे ऐसा लगता है जैसे , इसलिए आंतरिक योग 1 प्रत्येक , इसलिए संपूर्ण दाईं ओर | शून्य हो जाता है। मुझे यकीन है कि मुझे कुछ याद आ रहा है - क्या आप इस तर्क को समझ सकते हैं कि आपको उस समीकरण के बारे में कैसे पता चला? पीआर[जेडमैं=|एक्समैं,θ]+पीआर[जेडमैं=बी|एक्समैं,θ]=1मैं
डीडब्ल्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.