वैरिएबल बे और ईएम के बीच संबंध


26

मैंने कहीं पढ़ा है कि वेरिएशन बेयस पद्धति ईएम एल्गोरिदम का एक सामान्यीकरण है। दरअसल, एल्गोरिदम के पुनरावृत्त भाग बहुत समान हैं। यह जांचने के लिए कि क्या EM एल्गोरिथ्म वैरिएशनल बे का एक विशेष संस्करण है, मैंने निम्नलिखित की कोशिश की:

  1. एक्स Θ पी ( एक्स , Θ | Y ) क्यू एक्स ( एक्स ) क्यू Θ ( Θ ) क्यूY डेटा है, अव्यक्त चर का संग्रह है और पैरामीटर हैं। वैरिएशन बे में हम बनाते हैं कि एक अनुमान लगा सकते हैं जैसे कि । जहां s सरल, ट्रैक्टेबल वितरण हैं।XΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. चूंकि EM एल्गोरिथ्म MAP बिंदु का अनुमान लगाता है, इसलिए मैंने सोचा कि यदि मैं किसी डेल्टा फ़ंक्शन का उपयोग करता हूं तो EM में परिवर्तित हो सकते हैं: । आम तौर पर EM में किए गए मापदंडों के लिए पहला अनुमान है।QΘ1(Θ)=δΘ1(Θ)Θ1

  3. जब दिया जाता है, जो KL Divergence को कम करता है वह सूत्र द्वारा पाया जाता है ऊपर दिया गया सूत्र से सरल हो जाता है, यह चरण कदम के बराबर हो जाता है। EM एल्गोरिथ्म का!QΘ1(Θ)=δΘ1(Θ)QX1(X)

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P(X|Θ1,Y)

लेकिन मैं इस के निरंतरता के रूप में अधिकतमकरण कदम को प्राप्त नहीं कर सकता। अगले चरण में हमें गणना करने की आवश्यकता है और अनुसार पुनरावृत्ति नियम यह है:QΘ2(Θ)

QΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘ

क्या VB और EM एल्गोरिदम वास्तव में इस तरह से जुड़े हुए हैं? हम ईएम को वैरिएशन बे के विशेष मामले के रूप में कैसे प्राप्त कर सकते हैं, क्या मेरा दृष्टिकोण सही है?


आपने कहां पढ़ा कि EM एल्गोरिथ्म एक एमएपी अनुमान पाता है? नील एंड हिंटन (1998) द्वारा इस पत्र में प्रस्तुत ईएम के दृष्टिकोण को समझने के बाद, वैचारिक औचित्य और ईएम के बीच संबंध स्पष्ट हो जाएगा । मेरा जवाब भी यहां देखें ।
लुकास

मुझे लगता है कि मैंने ईएम एल्गोरिथ्म को उसी तरह से सीखा जैसे यह पेपर बताता है, इसे कम बाध्य अधिकतमकरण समस्या के रूप में देखा जाता है। जेन्सेन की समानता और विविधताओं के कलन का उपयोग करते हुए, कोई पाता है कि अपेक्षा के चरण में, वह वितरण है जो लिए निम्न बाउंड को अधिकतम करता और अधिकतमकरण चरण में, एक पाता है , जो निचली सीमा पर अधिकतम है। तो, यह वैरिएशनल बे के समान है। (और यह एक स्थानीय अधिकतम सीमांत के रूप में परिवर्तित होता है, इसलिए एमएपी का अनुमान है)P(X|Θt,Y)ΘtΘt+1=argmaxΘ<lnP(X,Y,Θ)>P(X|Θt,Y)
उफुक कैन बिचकी जूल

1
क्षमायाचना, मैंने आपके प्रश्न को ध्यान से नहीं पढ़ा। मेरा मानना ​​है कि गणना करने के लिए आपका अधिकतमकरण कदम केवल तभी मान्य है जब आप किसी भी वितरण की अनुमति देते हैं, अर्थात, यदि आप केवल कारक निर्धारण करते हैं। लेकिन आपने अतिरिक्त रूप से मान लिया है कि एक डेल्टा वितरण है। के पैरामीटर संबंध में स्पष्ट रूप से निचली सीमा को अधिकतम करने का प्रयास करें । QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)
लुकास

मैं प्रस्तुति के पृष्ठ 21 में पाया गया cs.cmu.edu/~tom/10-702/Zoubin-702.pdf ईएम और वीबी की तुलना दर्शाई गई है, इसी तरह डायक फ़ंक्शन का उपयोग करके। लेकिन ईएमबी को वीबी कैसे कम किया जाता है, यह नहीं बताया गया है।
उफुक कैन बिस्किट

जवाबों:


20

आपका दृष्टिकोण सही है। ईएम बाधा के तहत वीबी के बराबर है कि लिए अनुमानित पश्च बिंदु एक बिंदु द्रव्यमान होने के लिए विवश है। (यह पृष्ठ 337 पर प्रमाण के बिना उल्लेख किया है बायेसियन डेटा विश्लेषण ।) Let Θ * इस बिंदु द्रव्यमान का अज्ञात स्थान हो: क्यू Θ ( Θ ) = δ ( Θ - Θ * ) निम्नलिखित KL-विचलन वीबी कम कर देंगे: कश्मीर एल ( क्यू | | पी ) = क्यू एक्स ( एक्स ) क्यूΘΘ

QΘ(Θ)=δ(ΘΘ)
से अधिक कम से कमक्यूएक्स(एक्स)ईएम की ई-कदम देता है, और अधिक कम से कमΘ*ईएम की एम-कदम देता है।
KL(Q||P)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)lnQX(X)QΘ(Θ)P(X,Y,Θ)dX
QX(X)Θ

बेशक, यदि आप वास्तव में केएल विचलन का मूल्यांकन कर रहे थे, तो यह अनंत होगा। लेकिन यह समस्या नहीं है यदि आप डेल्टा फ़ंक्शन को एक सीमा मानते हैं।


तकनीकी तौर पर, अधिकतम wrt Θ * एम कदम से मेल खाती है एमएपी-ईएम (पूर्व पी ( AP ) के साथ )। - VBEM पेपर की धारा 3.1EQx[lnP(X,Y,Θ)]=EQx[lnP(X,Y|Θ)]+lnP(Θ)ΘP(Θ)
Yibo यांग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.