क्या कोई "गैर-पैरामीट्रिक" क्लस्टरिंग विधियां हैं जिनके लिए हमें क्लस्टर की संख्या निर्दिष्ट करने की आवश्यकता नहीं है? और अन्य पैरामीटर जैसे अंक प्रति क्लस्टर, आदि।
क्या कोई "गैर-पैरामीट्रिक" क्लस्टरिंग विधियां हैं जिनके लिए हमें क्लस्टर की संख्या निर्दिष्ट करने की आवश्यकता नहीं है? और अन्य पैरामीटर जैसे अंक प्रति क्लस्टर, आदि।
जवाबों:
क्लस्टरिंग एल्गोरिदम जिनकी आवश्यकता आपको पूर्व-निर्दिष्ट करने के लिए क्लस्टर की संख्या एक छोटे से अल्पसंख्यक हैं। वहाँ एल्गोरिदम की एक बड़ी संख्या है कि नहीं कर रहे हैं। उन्हें संक्षेप में प्रस्तुत करना कठिन है; यह थोड़ा सा है कि किसी भी जीवों के विवरण के लिए पूछें जो बिल्लियों नहीं हैं।
क्लस्टरिंग एल्गोरिदम को अक्सर व्यापक राज्यों में वर्गीकृत किया जाता है:
अतिरिक्त श्रेणियां हो सकती हैं, और लोग इन श्रेणियों से असहमत हो सकते हैं और कौन से एल्गोरिदम किस श्रेणी में जाते हैं, क्योंकि यह विधर्मी है। फिर भी, यह योजना कुछ सामान्य है। इससे काम करते हुए, यह मुख्य रूप से केवल विभाजन के तरीके (1) हैं जिन्हें खोजने के लिए क्लस्टर की संख्या के पूर्व-विनिर्देश की आवश्यकता होती है। अन्य सूचनाओं को पूर्व-निर्दिष्ट करने की आवश्यकता है (उदाहरण के लिए, प्रति क्लस्टर अंकों की संख्या), और क्या यह विभिन्न एल्गोरिदम को 'नॉनपेर्मेट्रिक' कहना उचित लगता है, इसी तरह उच्च चर और संक्षेप में कठिन है।
पदानुक्रमित क्लस्टरिंग से आपको क्लस्टर की संख्या को पूर्व-निर्दिष्ट करने की आवश्यकता नहीं होती है , जिस तरह से k-mean करता है, लेकिन आप अपने आउटपुट से कई क्लस्टर का चयन करते हैं। दूसरी ओर, DBSCAN को या तो इसकी आवश्यकता नहीं होती है (लेकिन इसमें 'पड़ोस' के लिए न्यूनतम अंकों के विनिर्देशन की आवश्यकता होती है-हालाँकि इसमें चूक हैं, इसलिए कुछ अर्थों में आप यह निर्दिष्ट करना छोड़ सकते हैं - जिसमें कोई मंजिल नहीं है एक क्लस्टर में पैटर्न की संख्या)। GMM को उन तीनों में से किसी की भी आवश्यकता नहीं है, लेकिन डेटा जनरेट करने की प्रक्रिया के बारे में पैरामीट्रिक मान्यताओं की आवश्यकता है। जहाँ तक मुझे पता है, कोई क्लस्टरिंग एल्गोरिथ्म नहीं है जो आपको कभी भी क्लस्टर की संख्या, क्लस्टर की न्यूनतम संख्या या क्लस्टर के भीतर डेटा के किसी भी पैटर्न / व्यवस्था को निर्दिष्ट करने की आवश्यकता नहीं है। मैं नहीं देखता कि वहाँ कैसे हो सकता है।
यह आपको विभिन्न प्रकार के क्लस्टरिंग एल्गोरिदम का अवलोकन पढ़ने में मदद कर सकता है। निम्नलिखित शुरू करने के लिए एक जगह हो सकती है:
Mclust
का उपयोग बीआईसी को अनुकूलित करने के लिए किया गया है, लेकिन एआईसी का उपयोग किया जा सकता है या संभावना अनुपात परीक्षणों का एक क्रम हो सकता है। मुझे लगता है कि आप इसे मेटा-अल्गोरिदम कह सकते हैं, b / c में इसके घटक चरण हैं (उदाहरण के लिए, EM), लेकिन यह वह एल्गोरिथम है जिसका आप उपयोग करते हैं, और किसी भी दर पर इसे आपको पूर्व-निर्दिष्ट k की आवश्यकता नहीं है। आप मेरे लिंक किए गए उदाहरण में स्पष्ट रूप से देख सकते हैं कि मैंने वहां पहले से निर्दिष्ट नहीं किया था।
सबसे सरल उदाहरण पदानुक्रमिक क्लस्टरिंग है , जहां आप कुछ दूरी माप का उपयोग करके एक-दूसरे बिंदु के साथ प्रत्येक बिंदु की तुलना करते हैं , और फिर उस जोड़ी में शामिल होते हैं जिसमें सम्मिलित छद्म बिंदु बनाने के लिए सबसे छोटी दूरी होती है (जैसे b और c छवि के अनुसार bc बनाता है नीचे)। आगे आप बिंदुओं और छद्म बिंदुओं को जोड़कर प्रक्रिया को दोहराते हैं, जब तक कि प्रत्येक बिंदु ग्राफ के साथ जुड़ नहीं जाता तब तक उनकी जोड़ीदार दूरी के आधार पर।
(स्रोत: https://en.wikipedia.org/wiki/Hierarchical_clustering )
प्रक्रिया गैर-पैरामीट्रिक है और केवल एक चीज जो आपको इसके लिए आवश्यक है वह है दूरी माप। अंत में आप कैसे तय करने के लिए की जरूरत है काटना , पेड़ ग्राफ इस प्रक्रिया का उपयोग कर बनाई तो समूहों जरूरतों की अपेक्षित संख्या के बारे में कोई फैसला किया जाएगा।
एक "पैरामीटर-मुक्त" विधि का मतलब है कि आपको केवल एक शॉट मिलता है (शायद यादृच्छिकता को छोड़कर), जिसमें कोई अनुकूलन संभावनाएं नहीं हैं।
अब क्लस्टरिंग एक खोजपूर्ण तकनीक है। आपको यह नहीं मानना चाहिए कि एक एकल "सच" क्लस्टरिंग है । आपको इसके बारे में अधिक जानने के लिए एक ही डेटा के विभिन्न समूहों की खोज करने में दिलचस्पी लेनी चाहिए । ब्लैक बॉक्स के रूप में क्लस्टरिंग का इलाज कभी भी अच्छा नहीं होता है।
उदाहरण के लिए, आप अपने डेटा के आधार पर उपयोग की जाने वाली दूरी फ़ंक्शन को अनुकूलित करना चाहते हैं (यह भी एक पैरामीटर है!) यदि परिणाम बहुत अधिक है, तो आप बेहतर परिणाम प्राप्त करने में सक्षम होना चाहते हैं, या यदि यह बहुत अच्छा है , इसका एक मोटे संस्करण प्राप्त करें।
सबसे अच्छे तरीके अक्सर वे होते हैं जो आपको परिणाम को अच्छी तरह से नेविगेट करने देते हैं, जैसे कि पदानुक्रमित क्लस्टरिंग में डेंड्रोग्राम। फिर आप आसानी से उपग्रहों का पता लगा सकते हैं।
की जाँच करें Dirichlet मिश्रण मॉडल । यदि आप पहले से समूहों की संख्या नहीं जानते हैं, तो वे डेटा की समझ बनाने का एक अच्छा तरीका प्रदान करते हैं। हालांकि, वे गुच्छों के आकार के बारे में धारणा बनाते हैं, जो आपके डेटा का उल्लंघन कर सकते हैं।