गॉसियन के मिश्रण का अनुकूलन सीधे कम्प्यूटेशनल रूप से कठिन क्यों है?


18

गॉसियंस के मिश्रण की लॉग संभावना पर विचार करें:

l(Sn;θ)=t=1nlogf(x(t)|θ)=t=1nlog{i=1kpif(x(t)|μ(i),σi2)}

मैं सोच रहा था कि सीधे उस समीकरण को अधिकतम करना क्यों कठिन था? मैं या तो एक स्पष्ट ठोस अंतर्ज्ञान की तलाश कर रहा था कि यह स्पष्ट क्यों होना चाहिए कि इसकी कठोर या शायद अधिक कठोर व्याख्या क्यों इसकी कठिन है। क्या यह समस्या एनपी-पूर्ण है या क्या हम अभी तक इसे हल करना नहीं जानते हैं? क्या यह कारण है कि हम EM ( अपेक्षा-अधिकतमकरण ) एल्गोरिथ्म का उपयोग करते हैं ?


संकेतन:

Sn = प्रशिक्षण डेटा।

x(t) = डेटा पॉइंट।

θ = गॉसियन को निर्दिष्ट करने वाले मापदंडों का सेट, उनका मतलब, मानक विचलन और प्रत्येक क्लस्टर / वर्ग / गॉसियन से एक बिंदु उत्पन्न करने की संभावना।

pi = क्लस्टर / क्लास / गाऊसी से बिंदु उत्पन्न करने की संभावना i।

जवाबों:


14

सबसे पहले, GMM क्लस्टरिंग के लिए एक विशेष एल्गोरिथ्म है, जहां आप अपने अवलोकनों के इष्टतम लेबलिंग को खोजने की कोशिश करते हैं । बीत रहा है कश्मीर संभव कक्षाएं, यह देखते हैं कि इसका मतलब है कश्मीर n अपने प्रशिक्षण डेटा के संभावित labellings। यह पहले से ही कश्मीर और n के मध्यम मूल्यों के लिए बहुत बड़ा हो जाता है ।nkknkn

दूसरा, जिस कार्य को आप कम से कम करने की कोशिश कर रहे हैं, वह उत्तल नहीं है, और साथ में आपकी समस्या का आकार, इसे बहुत कठिन बना देता है। मैं केवल यह जानता हूं कि k- साधन (GMM को किमी के एक नरम संस्करण के रूप में देखा जा सकता है) NP-hard है। लेकिन मुझे इस बात की जानकारी नहीं है कि यह जीएमएम के लिए भी साबित हुआ है या नहीं।

कि समस्या उत्तल नहीं है देखने के लिए, एक आयामी मामले पर विचार: और जाँच लें कि आप गारंटी नहीं दे सकते कि 2 एल

L=log(e(x/σ1)2+e(x/σ2)2)
सभी x के लिए।d2Ldx2>0

गैर-उत्तल समस्या होने का मतलब है कि आप स्थानीय मिनीमा में फंस सकते हैं। सामान्य तौर पर, आपके पास उत्कट अनुकूलन में मजबूत वारंटी नहीं है, और समाधान की खोज भी बहुत कठिन है।


3
दूसरे बिंदु के बारे में: k- साधन को GMM के एक विशेष मामले के रूप में देखा जा सकता है (अधिक सटीक रूप से, एक सीमा मामला जहां variances को शून्य पर ले जाया जाता है)। यदि हम GMM की फिटिंग के लिए k-साधनों को कम कर सकते हैं, तो उत्तरार्द्ध एक NP- हार्ड समस्या होना चाहिए।
लुकास

1
@ लुकास: यहाँ आपकी टिप्पणी के लिए एक क्रॉस मान्य लिंक है।
शीआन

7

जूंपा के अंकों के अलावा, मुझे उन कठिनाइयों का संकेत दें:

  • समारोह तो सच अधिकतम है, असीम है + और से मेल खाती है μ ( मैं ) = एक्स 1 (उदाहरण के लिए) और σ मैं = 0 । एक सच्चा अधिकतम इसलिए इस समाधान के साथ समाप्त होना चाहिए, जो अनुमान के प्रयोजनों के लिए उपयोगी नहीं है।एल(θ|एसn)+μ^(मैं)=एक्स1σ^मैं=0
  • यहां तक कि विचार किए बिना में उत्पादों की एक राशि के रूप में रकम के उत्पाद के अपघटन में शर्तों एल ( θ | एस एन ) , समारोह में बड़ा होकर किए जाने की θ (गैर उत्तल होने के अलावा) अत्यधिक मल्टी मॉडल है इसलिए संख्यात्मक विधियों के लिए एक चुनौती। EM एक स्थानीय मोड या काठी बिंदु में परिवर्तित करके और कई रन की आवश्यकता के द्वारा कठिनाई को स्वीकार करता है। जैसा दिखाया गया हैnएल(θ|एसn)θthe image below

मेरी पुस्तक से लिया गया ।

एक अतिरिक्त टिप्पणी: ईएम एल्गोरिथ्म को कॉल किए बिना, एक मानक अनुकूलन एल्गोरिथ्म (जैसे न्यूटन-राफसन) एक समय में एक पैरामीटर का उपयोग कर सकता है, अर्थात्

  • θ1'=आर्गअधिकतमθ1एल(θ|एसn)
  • θ2=argmaxθ2l(θ1,θ1|Sn)
  • ...
  • θv=argmaxθvl(θv,θv|Sn)

vl(θ|Sn)


ठीक है, यदि एल विहीन है, तो विचरण 0. है। लेकिन यदि हम उन्हें संभावित मापदंडों से बाहर करते हैं (इसलिए हम सभी विचरण> 0 मानते हैं), तो जब भी असीम चुने हुए विचरण (अन्य बिंदुओं की वजह से) हो, तो एल बहुत अधिक नहीं होगा। क्या मैं सही हू? फिर, मापदंडों के इस संभावित सेट के लिए, एल को बाध्य किया जाएगा, और इसका मतलब यह होगा कि ईएम एल्गोरिदम अभिसरण (बाउंड अनुक्रम को बढ़ाता है)।
18st

@ हयात: यह मानते हुए कि परिवर्तन पर्याप्त रूप से सकारात्मक है ईएम को एक पतित समाधान में बदलने के लिए नहीं रोका जाता है यदि वह पर्याप्त रूप से शुरू हो।
शीआन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.