Mclust मॉडल का चयन


11

R पैकेज mclustक्लस्टर मॉडल चयन के लिए BIC को मापदंड के रूप में उपयोग करता है। मेरी समझ से, सबसे कम BIC वाले मॉडल को अन्य मॉडलों पर चुना जाना चाहिए (यदि आप केवल केवल BIC के बारे में परवाह करते हैं)। हालाँकि, जब BIC मान सभी ऋणात्मक होते हैं, तो Mclustफ़ंक्शन उच्चतम BIC मान के साथ मॉडल में चूक करता है। विभिन्न परीक्षणों से मेरे समग्र समझ के साथ कि कर रहे हैं mclustकी पहचान करता है "सर्वश्रेष्ठ" मॉडल होने के रूप में उन max{BICi}

मैं यह समझने की कोशिश कर रहा हूं कि लेखकों ने यह निर्णय क्यों लिया। इसे CRAN साइट में चित्रित किया गया है: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

साथ ही, mclustसंकुल के लेखक अपने पेपर में इस पर ध्यान दें कि मॉडल आधारित वर्गीकरण के तरीके: पृष्ठ 5 पर रसायन विज्ञान में mclust सॉफ्टवेयर का उपयोग करना

फिट किए गए मॉडल में सबसे अच्छे बीआईसी के साथ 'बेस्ट' मॉडल लिया गया है।

क्या कोई इस मुद्दे पर प्रकाश डाल सकता है? यदि एक निचला बीआईसी हमेशा बेहतर होता है, तो लेखक सबसे कम बीआईसी के साथ मॉडल का चयन क्यों नहीं करते हैं, बल्कि सबसे छोटे निरपेक्ष एआईसी के साथ मॉडल का चयन करते हैं? यदि संभव हो, तो संदर्भ प्रदान करें।

जवाबों:


10

समाधान मिला:

तो, सवाल को शांत करने के लिए, Mclustफ़ंक्शन सबसे अच्छे बीआईसी मूल्य वाले मॉडल को "सर्वश्रेष्ठ" मॉडल के रूप में डिफ़ॉल्ट क्यों करता है ?

बड़ा अच्छा सवाल! मैं आपको इसका एक लंबा घुमावदार जवाब देता हूं।

टीएल; डीआर : बीआईसी मान इंटरग्रेटेड (अधिकतम नहीं) संभावना के लिए एक अनुमान है, और आप सबसे बड़ी एकीकृत संभावना (बेयस फैक्टर) के साथ मॉडल चाहते हैं ताकि आप सबसे बड़े बीआईसी के साथ मॉडल का चयन करें।

दीर्घ उत्तर : के-साधन और श्रेणीबद्ध (एग्लोमेरेटिव) क्लस्टरिंग जैसे हेयुरिस्टिक आधारित क्लस्टरिंग दृष्टिकोण पर मॉडल आधारित क्लस्टरिंग का उपयोग करने का उद्देश्य आपके डेटा के लिए एक उपयुक्त मॉडल की तुलना और चयन करने के लिए अधिक औपचारिक और सहज दृष्टिकोण प्रदान करना है।

Mclust प्रायिकता मॉडल, गाऊसी मिश्रित मॉडल के आधार पर क्लस्टरिंग तकनीकों का उपयोग करता है। संभावना मॉडल का उपयोग करके विभिन्न क्लस्टर मॉडल और आकारों की तुलना करने के लिए मॉडल-आधारित दृष्टिकोणों के विकास की अनुमति मिलती है। देखें * वर्गीकरण के मॉडल आधारित तरीके: अधिक विवरण के लिए Chemometrics में mclust सॉफ्टवेयर * ( https://www.jstatsoft.org/article/view/v018i06 ) का उपयोग करना ।

जैसा कि ऊपर उल्लेख किया गया है, लेखक बताता है कि "सर्वश्रेष्ठ" मॉडल सबसे बड़े बीआईसी मूल्यों के साथ एक है। एन्हांस्ड मॉडल-आधारित क्लस्टरिंग, डेंसिटी एस्टीमेशन और डिस्क्रिमिनेंट एनालिसिस सॉफ्टवेयर का एक और उदाहरण है : MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fralex2003.pdf ):

बेज़ियन सूचना मानदंड या बीआईसी (?) मॉडल में मापदंडों की संख्या पर जुर्माना के साथ अधिकतम loglikelihood का मूल्य है, और अलग-अलग मापदंडों और / या समूहों की संख्याओं के साथ मॉडल की तुलना करने की अनुमति देता है। सामान्य तौर पर BIC का मूल्य जितना बड़ा होता है, मॉडल और क्लस्टर की संख्या के लिए सबूत उतने ही मजबूत होते हैं (देखें, उदाहरण फ्रेली और राफ्टी 2002a)।

मॉडल चयन : अब चूंकि क्लस्टर के लिए एक प्रायिकता मॉडल जुड़ा हुआ है, आप बेयस मॉडल के माध्यम से बेयस मॉडल का उपयोग करके कई क्लस्टर मॉडल की तुलना करने के लिए अधिक परिष्कृत उपकरणों का उपयोग कर सकते हैं।

उनके कागज में, कितने क्लस्टर? कौन सी क्लस्टरिंग विधि? उत्तर माया मॉडल-आधारित क्लस्टर विश्लेषण ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

बेयस फैक्टर एक मॉडल के लिए एक के बाद एक के लिए अन्य बाधाओं के विपरीत है और न ही एक प्राथमिकता का पक्षधर है। वर्गीकरण की संभावना के आधार पर पदानुक्रमित क्लस्टरिंग में गुच्छों की संख्या निर्धारित करने के लिए, बॅनफील्ड और राफ्टी [2] ने दो बे बेयर्स फैक्टर के दो बार हेयुरिस्टली व्युत्पन्न सन्निकटन का उपयोग किया। जब ईएम का उपयोग अधिकतम मिश्रण संभावना को खोजने के लिए किया जाता है, तो बीआईसी (श्वार्ज [32]) नामक लॉग बेस कारक को दोगुना करने के लिए एक अधिक विश्वसनीय सन्निकटन लागू होता है:

2log(p(x|M))+constant2lM(x,θ^)mmlog(n)BIC

p(x|M)lM(x,θ^)a priorip(x|M)M

तो, संक्षेप में, बीआईसी को कम से कम नहीं किया जाना चाहिए। इस मॉडल-आधारित क्लस्टरिंग दृष्टिकोण का उपयोग करने वाले व्यक्ति को बीआईसी को अधिकतम करने वाले मॉडल की तलाश करनी चाहिए क्योंकि यह अधिकतम एकीकृत संभावना के साथ बेयस कारक का अनुमान लगाता है।

उस अंतिम विवरण में एक संदर्भ भी है:

Banfield, JD और Raftery, AE (1993) मॉडल-आधारित गाऊसी और गैर-गाऊसी क्लस्टरिंग। बायोमेट्रिक्स, 49, 803– 821।

संपादित करें : एक ईमेल एक्सचेंज के आधार पर,

एक साइड नोट के रूप में, हमेशा जांचें कि बीआईसी कैसे परिभाषित किया गया है। कभी-कभी, अधिकांश प्रतिगमन संदर्भों में उदाहरण के लिए (जहां पारंपरिक रूप से एक सांख्यिकीय अनुमानों के लिए न्यूनतम किया जाता है, उदाहरण के लिए वर्ग, अवशिष्ट, आदि के अवशिष्ट योग) बीआईसी की गणना -2 * loglik + npar * log (n) के रूप में की जाती है, अर्थात म्लेच्छ में क्या उपयोग किया जाता है। जाहिर है, उस स्थिति में BIC को कम से कम किया जाना चाहिए।

BIC=2×ln(L(θ|x))+k×ln(n)


1
सुनिश्चित नहीं है कि इस प्रतिक्रिया के ईमेल पत्राचार के Mclust के किस संस्करण से संबंधित था। Mclust का संस्करण 4 BIC के नकारात्मक घटक का उपयोग करता है और इसलिए इसे अधिकतम किया जाना चाहिए। आशा है कि यह पता लगाने की कोशिश कर रहे लोगों के लिए उपयोगी हो सकता है कि क्या अधिकतमकरण या न्यूनतमकरण किया जाना चाहिए।
रसिका

यह इंगित करने के लिए धन्यवाद, मैं इस प्रश्न को अपडेट करूंगा ताकि यह समझ में आए। मैं इस दस्तावेज को देखने के साथ-साथ यह भी देख सकता हूं कि इतने सालों के बाद उन्होंने यह परिवर्तन करने का फैसला क्यों किया
जॉन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.