बीवरिएट मिश्रण वितरण के साथ ईएम एल्गोरिदम से रूपांतरण


9

मेरे पास एक मिश्रण मॉडल है जिसे मैं डेटा के एक सेट के अधिकतम संभावना अनुमानक को ढूंढना चाहता हूं xऔर आंशिक रूप से देखे गए डेटा का एक सेट । मैंने दोनों ई-स्टेप को लागू किया है ( दिए गए और करंट पैरामीटर्स की उम्मीद की गणना ), और M- स्टेप, जो कि अपेक्षित दी गई नकारात्मक लॉग-लाइबिलिटी को कम करता है।zzxθkz

जैसा कि मैंने इसे समझा है, प्रत्येक पुनरावृत्ति के लिए अधिकतम संभावना बढ़ रही है, इसका मतलब है कि नकारात्मक लॉग-लाइबिलिटी हर पुनरावृत्ति के लिए कम हो रही है? हालाँकि, जैसा कि मैं पुनरावृति करता हूं, एल्गोरिथ्म वास्तव में नकारात्मक लॉग-लाइबिलिटी के घटते मूल्यों का उत्पादन नहीं करता है। इसके बजाय, यह घटाना और बढ़ना दोनों हो सकता है। उदाहरण के लिए, यह अभिसरण तक नकारात्मक लॉग-लाइक के मान थे:

यहाँ छवि विवरण दर्ज करें

यहाँ है कि मैं गलत समझा है?

इसके अलावा, सिम्युलेटेड डेटा के लिए जब मैं वास्तविक अव्यक्त (बिना बोले गए) चर के लिए अधिकतमविकल्पी प्रदर्शन करता हूं, तो मेरे पास एक सही फिट के करीब है, यह दर्शाता है कि कोई प्रोग्रामिंग त्रुटियां नहीं हैं। EM एल्गोरिथ्म के लिए यह अक्सर स्पष्ट रूप से उप-योग समाधानों में परिवर्तित होता है, विशेष रूप से मापदंडों के एक विशिष्ट सबसेट (यानी वर्गीकृत चर के अनुपात) के लिए। यह सर्वविदित है कि एल्गोरिथ्म स्थानीय मिनीमा या स्थिर बिंदुओं में परिवर्तित हो सकता है, क्या वैश्विक न्यूनतम (या अधिकतम) खोजने की संभावना बढ़ाने के लिए एक पारंपरिक खोज अनुमानी या इसी तरह है । इस विशेष समस्या के लिए, मेरा मानना ​​है कि कई मिस वर्गीकरण हैं, क्योंकि द्विभाजित मिश्रण में से, दो वितरणों में से एक संभावना के साथ मान लेता है (यह जीवनकाल का मिश्रण है जहां सही जीवनकाल पाया जाता हैT=zT0+(1z) जहां वितरण से संबंधित होने का संकेत देता है। संकेतक निश्चित रूप से डेटा सेट में सेंसर किया गया है। zzयहाँ छवि विवरण दर्ज करें

जब मैंने सैद्धांतिक समाधान (जो इष्टतम के करीब होना चाहिए) के साथ शुरू करने के लिए मैंने एक दूसरा आंकड़ा जोड़ा। हालांकि, जैसा कि इस समाधान से संभावना और मापदंडों के विचलन को देखा जा सकता है जो स्पष्ट रूप से हीन है।

संपादित करें: पूरा डेटा फॉर्म जहां विषय लिए एक मनाया गया समय है , इंगित करता है कि क्या समय वास्तविक घटना से जुड़ा है या यदि यह सही सेंसर किया गया है (1 घटना और 0 सही को दर्शाता है), ट्रंकेशन इंडिकेटर साथ अवलोकन (संभवतः 0) का और अंत में संकेतक है कि जनसंख्या किस जनसंख्या से संबंधित है (जब से इसकी बीवरिएट हमें केवल 0 और 1 के) पर विचार करने की आवश्यकता है।xi=(ti,δi,Li,τi,zi)tiiδiLiτizi

के लिए हम घनत्व समारोह है , इसी तरह यह पूंछ वितरण समारोह के साथ जुड़ा हुआ । के लिए ब्याज की घटना घटित नहीं होगा। हालाँकि इस वितरण के साथ कोई जुड़ा नहीं , हम इसे परिभाषित करते हैं , इस प्रकार और । इससे निम्न पूर्ण मिश्रण वितरण भी होता है:z=1fz(t)=f(t|z=1)Sz(t)=S(t|z=1)z=0tinff(t|z=0)=0S(t|z=0)=1

f(t)=i=01pif(t|z=i)=pf(t|z=1) और S(t)=1p+pSz(t)

हम संभावना के सामान्य रूप को परिभाषित करने के लिए आगे बढ़ते हैं:

L(θ;xi)=Πif(ti;θ)δiS(ti;θ)1δiS(Li)τi

अब, केवल आंशिक रूप से मनाया जाता है जब , अन्यथा यह अज्ञात है। पूरी संभावना बन जाती हैzδ=1

L(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1p)(1zi)(pSz(ti;θ))zi)1δi((1p)(1zi)(pSz(Li;θ))zi)τi

जहां इसी वितरण का वजन है (संभवतः कुछ लिंक फ़ंक्शन द्वारा कुछ सहसंयोजकों और उनके संबंधित गुणांक के साथ जुड़ा हुआ है)। अधिकांश साहित्य में यह निम्नलिखित loglikelihood के लिए सरल हैp

(ziln(p)+(1p)ln(1p)τi(ziln(p)+(1zi)ln(1p))+δizifz(ti;θ)+(1δi)ziSz(ti;θ)τiSz(Li;θ))

के लिए एम-कदम , इस समारोह को बड़ा किया गया है, हालांकि 1 अधिकतम विधि में अपनी संपूर्णता में नहीं। इसके बजाय हम यह नहीं कि इसे भागों ।l(θ,p;)=l1(θ,)+l2(p,)

K: th + 1 ई-स्टेप के लिए , हमें (आंशिक रूप से) अव्यक्त चर का अपेक्षित मान । हम इस तथ्य का उपयोग करते हैं कि , फिर ।ziδ=1z=1

E(zi|xi,θ(k),p(k))=δi+(1δi)P(zi=1;θ(k),p(k)|xi)

यहाँ हमारे पासP(zi=1;θ(k),p(k)|xi)=P(xi;θ(k),p(k)|zi=1)P(zi=1;θ(k),p(k))P(xi;θ(k),p(k))

जो हमेंP(zi=1;θ(k),p(k)|xi)=pSz(ti;θ(k))1p+pSz(ti;θ(k))

(यहां ध्यान दें कि , इसलिए कोई देखी गई घटना नहीं है, इस प्रकार डेटा की संभावना पूंछ वितरण फ़ंक्शन द्वारा दी जाती है।δi=0xi


क्या आप शुरू से ही अपनी समस्या के चर और अपने E और M समीकरण लिख सकते हैं?
अल्बर्टो

1
बेशक, मैंने ई और एम-स्टेप के बारे में अधिक विवरण के साथ प्रश्न संपादित किया है
गुड गाय माइक

स्पष्ट करने के लिए, प्लॉट किए गए मान पूर्ण MLE हैं जो अपूर्ण डेटा के लिए अनुमानित मान दिए गए हैं।
गुड गाइ माइक

क्या है ? मुझे यह समझ में नहीं आया "हालांकि इस वितरण के साथ कोई टी जुड़ा नहीं है, हम इसे परिभाषित करते हैं ... Sz
wij

1
ईएम एल्गोरिथ्म सीधे अपेक्षित पूर्ण-डेटा संभावना को अधिकतम करता है, लेकिन मनाया-डेटा संभावना की वृद्धि की गारंटी दे सकता है। क्या आप देखे गए डेटा की संभावना में वृद्धि की जाँच कर रहे हैं?
रेंडेल

जवाबों:


6

EM का उद्देश्य अवलोकन डेटा लॉग-लाइबिलिटी को अधिकतम करना है,

l(θ)=iln[zp(xi,z|θ)]

दुर्भाग्य से, इस के संबंध में अनुकूलन करने के लिए मुश्किल हो जाता है । इसके बजाय, EM बार-बार रूपों और सहायक फ़ंक्शन को अधिकतम करता हैθ

Q(θ,θt)=Ez|θt(ilnp(xi,zi|θ))

अगर θt+1 अधिकतम Q(θ,θt), EM गारंटी देता है कि

l(θt+1)Q(θt+1,θt)Q(θt,θt)=l(θt)

यदि आप यह जानना चाहते हैं कि ऐसा क्यों है, तो मर्फी की मशीन लर्निंग की धारा 11.4.7 : ए प्रोबायलिस्टिक परिप्रेक्ष्य एक अच्छा विवरण देता है। यदि आपका कार्यान्वयन इन असमानताओं को पूरा नहीं करता है, तो आपने कहीं गलती की है। जैसी बातें कहना

मेरे पास एकदम सही फिट है, यह दर्शाता है कि कोई प्रोग्रामिंग त्रुटियां नहीं हैं

खतरनाक है। बहुत सारे अनुकूलन और एल्गोरिदम सीखने के साथ, गलतियों को करना बहुत आसान है फिर भी अधिकांश समय में सही-सही उत्तर प्राप्त होते हैं। एक अंतर्ज्ञान जो मुझे पसंद है, वह यह है कि इन एल्गोरिदम को गन्दा डेटा से निपटने का इरादा है, इसलिए यह आश्चर्य की बात नहीं है कि वे बग के साथ भी अच्छी तरह से व्यवहार करते हैं!


आपके प्रश्न के दूसरे भाग पर,

वैश्विक न्यूनतम (या अधिकतम) खोजने की संभावना को बढ़ाने के लिए एक पारंपरिक खोज अनुमानी या इसी तरह है

यादृच्छिक पुनरारंभ सबसे आसान तरीका है; अगले सबसे आसान संभवतया प्रारंभिक मापदंडों के आधार पर सिम्युलेटेड है। मैंने ईएम के एक संस्करण का भी सुना है जिसे नियतात्मक एनालिंग कहा जाता है , लेकिन मैंने इसे व्यक्तिगत रूप से उपयोग नहीं किया है इसलिए आप इसके बारे में ज्यादा नहीं बता सकते हैं।


1
अच्छा जवाब (+1)। यह और भी बेहतर होगा, यदि आप औपचारिक संदर्भ (विशेष रूप से, आंशिक रूप से उद्धृत स्रोत "मशीन लर्निंग: ए प्रोपेबिलिस्टिक पर्सपेक्टिव" का संदर्भ शामिल करेंगे)।
४० पर Aprle१ पर

उत्तर के लिए बहुत बहुत धन्यवाद। मैंने पाया है कि कोड में एक त्रुटि को ठीक करने के बाद एल्गोरिथ्म अब ठीक से परिवर्तित होता है, लेकिन केवल जब मैं अपने छंटनी किए गए डेटा को बाहर करता हूं। वरना हाहाकार मच जाता है। मेरा मानना ​​है कि यह कुछ त्रुटियों का परिणाम है।
गुड गाय माइक

वास्तव में, समस्या यह है कि मैं "विषम ट्रंकेशन" से निपटता हूं, अर्थात एक अलग ट्रंकेशन पॉइंट है Liप्रत्येक अवलोकन के लिए, बल्कि सभी टिप्पणियों के लिए एक सर्वसम्मत छंटनी सीमा के बजाय। मैंने कभी भी साहित्य में इन सेटिंग्स का सामना नहीं किया है या नहीं कर सकता हूं, इसलिए मैं यह सत्यापित नहीं कर सकता कि मैं इसे सही तरीके से हल कर रहा हूं। यदि आप किसी भी संयोग से इस सेटिंग को देखा है, मैं उन संदर्भों पर एक नज़र रखना पसंद करेंगे!
गुड गाय माइक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.