समाधान मिला:
तो, सवाल को शांत करने के लिए, Mclust
फ़ंक्शन सबसे अच्छे बीआईसी मूल्य वाले मॉडल को "सर्वश्रेष्ठ" मॉडल के रूप में डिफ़ॉल्ट क्यों करता है ?
बड़ा अच्छा सवाल! मैं आपको इसका एक लंबा घुमावदार जवाब देता हूं।
टीएल; डीआर : बीआईसी मान इंटरग्रेटेड (अधिकतम नहीं) संभावना के लिए एक अनुमान है, और आप सबसे बड़ी एकीकृत संभावना (बेयस फैक्टर) के साथ मॉडल चाहते हैं ताकि आप सबसे बड़े बीआईसी के साथ मॉडल का चयन करें।
दीर्घ उत्तर : के-साधन और श्रेणीबद्ध (एग्लोमेरेटिव) क्लस्टरिंग जैसे हेयुरिस्टिक आधारित क्लस्टरिंग दृष्टिकोण पर मॉडल आधारित क्लस्टरिंग का उपयोग करने का उद्देश्य आपके डेटा के लिए एक उपयुक्त मॉडल की तुलना और चयन करने के लिए अधिक औपचारिक और सहज दृष्टिकोण प्रदान करना है।
Mclust प्रायिकता मॉडल, गाऊसी मिश्रित मॉडल के आधार पर क्लस्टरिंग तकनीकों का उपयोग करता है। संभावना मॉडल का उपयोग करके विभिन्न क्लस्टर मॉडल और आकारों की तुलना करने के लिए मॉडल-आधारित दृष्टिकोणों के विकास की अनुमति मिलती है। देखें * वर्गीकरण के मॉडल आधारित तरीके: अधिक विवरण के लिए Chemometrics में mclust सॉफ्टवेयर * ( https://www.jstatsoft.org/article/view/v018i06 ) का उपयोग करना ।
जैसा कि ऊपर उल्लेख किया गया है, लेखक बताता है कि "सर्वश्रेष्ठ" मॉडल सबसे बड़े बीआईसी मूल्यों के साथ एक है। एन्हांस्ड मॉडल-आधारित क्लस्टरिंग, डेंसिटी एस्टीमेशन और डिस्क्रिमिनेंट एनालिसिस सॉफ्टवेयर का एक और उदाहरण है : MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fralex2003.pdf ):
बेज़ियन सूचना मानदंड या बीआईसी (?) मॉडल में मापदंडों की संख्या पर जुर्माना के साथ अधिकतम loglikelihood का मूल्य है, और अलग-अलग मापदंडों और / या समूहों की संख्याओं के साथ मॉडल की तुलना करने की अनुमति देता है। सामान्य तौर पर BIC का मूल्य जितना बड़ा होता है, मॉडल और क्लस्टर की संख्या के लिए सबूत उतने ही मजबूत होते हैं (देखें, उदाहरण फ्रेली और राफ्टी 2002a)।
मॉडल चयन : अब चूंकि क्लस्टर के लिए एक प्रायिकता मॉडल जुड़ा हुआ है, आप बेयस मॉडल के माध्यम से बेयस मॉडल का उपयोग करके कई क्लस्टर मॉडल की तुलना करने के लिए अधिक परिष्कृत उपकरणों का उपयोग कर सकते हैं।
उनके कागज में, कितने क्लस्टर? कौन सी क्लस्टरिंग विधि? उत्तर माया मॉडल-आधारित क्लस्टर विश्लेषण ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
बेयस फैक्टर एक मॉडल के लिए एक के बाद एक के लिए अन्य बाधाओं के विपरीत है और न ही एक प्राथमिकता का पक्षधर है। वर्गीकरण की संभावना के आधार पर पदानुक्रमित क्लस्टरिंग में गुच्छों की संख्या निर्धारित करने के लिए, बॅनफील्ड और राफ्टी [2] ने दो बे बेयर्स फैक्टर के दो बार हेयुरिस्टली व्युत्पन्न सन्निकटन का उपयोग किया। जब ईएम का उपयोग अधिकतम मिश्रण संभावना को खोजने के लिए किया जाता है, तो बीआईसी (श्वार्ज [32]) नामक लॉग बेस कारक को दोगुना करने के लिए एक अधिक विश्वसनीय सन्निकटन लागू होता है:
2 लॉग( p ( x | M)) ) + ग ओ एन एस टी एक एन टी ≈ 2 एलम( एक्स , θ^) - एममएल ओ जी( n ) ≡ B Iसी
p ( x | एम |)एलम( एक्स , θ^)एक पी आर मैं ओ आर मैं p ( x | एम |)म
तो, संक्षेप में, बीआईसी को कम से कम नहीं किया जाना चाहिए। इस मॉडल-आधारित क्लस्टरिंग दृष्टिकोण का उपयोग करने वाले व्यक्ति को बीआईसी को अधिकतम करने वाले मॉडल की तलाश करनी चाहिए क्योंकि यह अधिकतम एकीकृत संभावना के साथ बेयस कारक का अनुमान लगाता है।
उस अंतिम विवरण में एक संदर्भ भी है:
Banfield, JD और Raftery, AE (1993) मॉडल-आधारित गाऊसी और गैर-गाऊसी क्लस्टरिंग। बायोमेट्रिक्स, 49, 803– 821।
संपादित करें : एक ईमेल एक्सचेंज के आधार पर,
एक साइड नोट के रूप में, हमेशा जांचें कि बीआईसी कैसे परिभाषित किया गया है। कभी-कभी, अधिकांश प्रतिगमन संदर्भों में उदाहरण के लिए (जहां पारंपरिक रूप से एक सांख्यिकीय अनुमानों के लिए न्यूनतम किया जाता है, उदाहरण के लिए वर्ग, अवशिष्ट, आदि के अवशिष्ट योग) बीआईसी की गणना -2 * loglik + npar * log (n) के रूप में की जाती है, अर्थात म्लेच्छ में क्या उपयोग किया जाता है। जाहिर है, उस स्थिति में BIC को कम से कम किया जाना चाहिए।
बी आईसी= - 2 × l n ( L ( θ | x ) ) + k × l n ( n )