एक गाऊसी मिश्रण में घटकों की इष्टतम संख्या


10

तो, के-साधनों में समूहों की इष्टतम संख्या का "विचार" प्राप्त करना अच्छी तरह से प्रलेखित है। मुझे गाऊसी मिश्रण में ऐसा करने पर एक लेख मिला , लेकिन मुझे यकीन नहीं है कि मैं इससे सहमत हूं, इसे बहुत अच्छी तरह से नहीं समझें। वहाँ है ... यह करने का तरीका gentler?


4
क्या आप लेख का हवाला दे सकते हैं, या कम से कम उस कार्यप्रणाली की रूपरेखा तैयार कर सकते हैं जो वह प्रस्तावित करता है? अगर हम बेसलाइन को नहीं जानते हैं तो ऐसा करने के लिए "जेंटलर" तरीके से आना मुश्किल है:
जूलमैन

1
ज्योफ मैकलाचलन और अन्य ने मिश्रण वितरण पर किताबें लिखी हैं। मुझे यकीन है कि ये मिश्रण में घटकों की संख्या निर्धारित करने के लिए दृष्टिकोण शामिल हैं। आप शायद वहाँ देख सकते हैं। मैं जुम्मन से सहमत हूं कि आपके भ्रम को दूर करना सबसे अच्छा होगा यदि आप हमें संकेत देंगे कि यह क्या है जिसके बारे में आप भ्रमित हैं।
माइकल आर। चेर्निक

अध्यक्षीय पहचान के लिए वृद्धिशील k- साधनों के आधार पर गाऊसी मिश्रणों की अनुमानित इष्टतम संख्या .... इसका शीर्षक है, यह डाउनलोड करने के लिए स्वतंत्र है। यह मूल रूप से समूहों की संख्या को 1 से बढ़ाता है जब तक आप यह नहीं देखते कि दो क्लस्टर एक दूसरे के बीच निर्भर हो जाते हैं, ऐसा कुछ। धन्यवाद!
जेकीहुआ

केवल उन घटकों की संख्या का चयन क्यों नहीं किया जाता है जो संभावना के क्रॉस-वेलिडेशन अनुमान को अधिकतम करते हैं? यह कम्प्यूटेशनल रूप से महंगा है, लेकिन मॉडल चयन के लिए ज्यादातर मामलों में क्रॉस-वैरिफिकेशन को हराना मुश्किल है, जब तक कि ट्यून करने के लिए बड़ी संख्या में पैरामीटर नहीं हैं।
डिक्रान मार्सुपियल

क्या आप थोड़ा समझा सकते हैं कि संभावना का क्रॉस-वेलिडेशन अनुमान क्या है? मुझे अवधारणा के बारे में पता नहीं है। धन्यवाद।
जेक्विहुआ

जवाबों:


5

डिक्रान मार्सुपियल की टिप्पणी (क्रॉस-वैधीकरण) के लिए बस कुछ विस्तार। मुख्य विचार यह है कि अपने डेटा को किसी तरह से प्रशिक्षण और सत्यापन सेट में विभाजित करें, विभिन्न घटकों की कोशिश करें और संबंधित प्रशिक्षण और सत्यापन संभावना मूल्यों के आधार पर सर्वश्रेष्ठ का चयन करें।

GMM के लिए संभावना सिर्फ है परिभाषा के अनुसार, जहां घटकों की संख्या (क्लस्टर) और , , मॉडल पैरामीटर हैं। के मूल्य को बदलकर आप निम्न की तरह प्रशिक्षण और सत्यापन सेट के लिए GMM संभावना की साजिश कर सकते हैं।p(x|π,μ,Σ)=KπkN(x|μk,Σk)KπμΣK

यहाँ छवि विवरण दर्ज करें

इस उदाहरण में यह स्पष्ट होना चाहिए कि घटकों की इष्टतम संख्या लगभग 20 है। कौरसेरा पर इस बारे में अच्छा वीडियो है , और यह वह जगह है जहां से मुझे उपरोक्त चित्र मिला है।


एक और आमतौर पर इस्तेमाल की जाने वाली विधि बायेसियन सूचना मानदंड (बीआईसी) है : जहां संभावना है, के मापदंडों की संख्या और डेटा बिंदुओं की संख्या । यह लॉग संभावना के लिए मापदंडों की संख्या के लिए एक दंड को जोड़ने के रूप में समझा जा सकता है।

BIC=2log(L)+Klog(n)
Ln
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.