क्लस्टरिंग विधियों को क्लस्टर की संख्या को पूर्व-निर्दिष्ट करने की आवश्यकता नहीं है


17

क्या कोई "गैर-पैरामीट्रिक" क्लस्टरिंग विधियां हैं जिनके लिए हमें क्लस्टर की संख्या निर्दिष्ट करने की आवश्यकता नहीं है? और अन्य पैरामीटर जैसे अंक प्रति क्लस्टर, आदि।

जवाबों:


22

क्लस्टरिंग एल्गोरिदम जिनकी आवश्यकता आपको पूर्व-निर्दिष्ट करने के लिए क्लस्टर की संख्या एक छोटे से अल्पसंख्यक हैं। वहाँ एल्गोरिदम की एक बड़ी संख्या है कि नहीं कर रहे हैं। उन्हें संक्षेप में प्रस्तुत करना कठिन है; यह थोड़ा सा है कि किसी भी जीवों के विवरण के लिए पूछें जो बिल्लियों नहीं हैं।

क्लस्टरिंग एल्गोरिदम को अक्सर व्यापक राज्यों में वर्गीकृत किया जाता है:

  1. विभाजन एल्गोरिदम (जैसे k- साधन और यह संतान है)
  2. पदानुक्रमिक क्लस्टरिंग (जैसा @Tim वर्णन करता है )
  3. घनत्व आधारित क्लस्टरिंग (जैसे DBSCAN )
  4. मॉडल आधारित क्लस्टरिंग (उदाहरण के लिए, गाऊसी मिश्रण मॉडल , या अव्यक्त वर्ग विश्लेषण परिमित करें )

अतिरिक्त श्रेणियां हो सकती हैं, और लोग इन श्रेणियों से असहमत हो सकते हैं और कौन से एल्गोरिदम किस श्रेणी में जाते हैं, क्योंकि यह विधर्मी है। फिर भी, यह योजना कुछ सामान्य है। इससे काम करते हुए, यह मुख्य रूप से केवल विभाजन के तरीके (1) हैं जिन्हें खोजने के लिए क्लस्टर की संख्या के पूर्व-विनिर्देश की आवश्यकता होती है। अन्य सूचनाओं को पूर्व-निर्दिष्ट करने की आवश्यकता है (उदाहरण के लिए, प्रति क्लस्टर अंकों की संख्या), और क्या यह विभिन्न एल्गोरिदम को 'नॉनपेर्मेट्रिक' कहना उचित लगता है, इसी तरह उच्च चर और संक्षेप में कठिन है।

पदानुक्रमित क्लस्टरिंग से आपको क्लस्टर की संख्या को पूर्व-निर्दिष्ट करने की आवश्यकता नहीं होती है , जिस तरह से k-mean करता है, लेकिन आप अपने आउटपुट से कई क्लस्टर का चयन करते हैं। दूसरी ओर, DBSCAN को या तो इसकी आवश्यकता नहीं होती है (लेकिन इसमें 'पड़ोस' के लिए न्यूनतम अंकों के विनिर्देशन की आवश्यकता होती है-हालाँकि इसमें चूक हैं, इसलिए कुछ अर्थों में आप यह निर्दिष्ट करना छोड़ सकते हैं - जिसमें कोई मंजिल नहीं है एक क्लस्टर में पैटर्न की संख्या)। GMM को उन तीनों में से किसी की भी आवश्यकता नहीं है, लेकिन डेटा जनरेट करने की प्रक्रिया के बारे में पैरामीट्रिक मान्यताओं की आवश्यकता है। जहाँ तक मुझे पता है, कोई क्लस्टरिंग एल्गोरिथ्म नहीं है जो आपको कभी भी क्लस्टर की संख्या, क्लस्टर की न्यूनतम संख्या या क्लस्टर के भीतर डेटा के किसी भी पैटर्न / व्यवस्था को निर्दिष्ट करने की आवश्यकता नहीं है। मैं नहीं देखता कि वहाँ कैसे हो सकता है।

यह आपको विभिन्न प्रकार के क्लस्टरिंग एल्गोरिदम का अवलोकन पढ़ने में मदद कर सकता है। निम्नलिखित शुरू करने के लिए एक जगह हो सकती है:

  • बेरखिन, पी। "क्लस्टरिंग डेटा माइनिंग तकनीकों का सर्वेक्षण" ( पीडीएफ )

मैं आपके # 4 से भ्रमित हूं: मैंने सोचा कि अगर कोई गाऊसी मिश्रण मॉडल को डेटा में फिट करता है तो किसी को फिट होने के लिए गाऊसी की संख्या चुनने की आवश्यकता है, अर्थात क्लस्टर की संख्या अग्रिम में निर्दिष्ट की जानी चाहिए। यदि हां, तो आप यह क्यों कहते हैं कि "मुख्य रूप से केवल" # 1 को इसकी आवश्यकता है?
अमीबा का कहना है कि मोनिका

@amoeba, यह मॉडल आधारित विधि और यह कैसे लागू किया जाता है पर निर्भर करता है। GMM अक्सर कुछ कसौटी को कम करने के लिए फिट होते हैं (जैसे, OLS प्रतिगमन, cf यहाँ )। यदि ऐसा है, तो आप क्लस्टर की संख्या को पूर्व-निर्दिष्ट नहीं करते हैं। यहां तक ​​कि अगर आप कुछ अन्य कार्यान्वयन के अनुसार करते हैं, तो यह मॉडल आधारित विधियों के लिए एक विशिष्ट विशेषता नहीं है।
गंग - मोनिका

k=3

मैं वास्तव में यहाँ आपके तर्क का पालन नहीं करता, @amoeba। जब आप एक साधारण प्रतिगमन मॉडल w / OLS एल्गोरिथ्म फिट करते हैं, तो क्या आप कहेंगे कि आप ढलान और अवरोधन को पूर्व-निर्दिष्ट कर रहे हैं, या कि एल्गोरिथ्म उन्हें एक मानदंड का अनुकूलन करके निर्दिष्ट करता है? यदि बाद में, मैं नहीं देखता कि यहाँ क्या अलग है। यह निश्चित रूप से सच है कि आप एक नया मेटा-अल्गोरिद्म बना सकते हैं, जो विभाजन w / o पूर्व-निर्दिष्ट k को खोजने के लिए इसके चरणों में से एक के रूप में k-mean का उपयोग करता है, लेकिन यह कि मेटा-एल्गोरिथ्म k- साधन नहीं होगा।
गुंग - को पुनः स्थापित मोनिका

1
@amoeba, यह एक शब्दार्थ मुद्दा प्रतीत होता है, लेकिन GMM फिट करने के लिए उपयोग किए जाने वाले मानक एल्गोरिदम आमतौर पर एक मानदंड का अनुकूलन करते हैं। उदाहरण के लिए, एक Mclustका उपयोग बीआईसी को अनुकूलित करने के लिए किया गया है, लेकिन एआईसी का उपयोग किया जा सकता है या संभावना अनुपात परीक्षणों का एक क्रम हो सकता है। मुझे लगता है कि आप इसे मेटा-अल्गोरिदम कह सकते हैं, b / c में इसके घटक चरण हैं (उदाहरण के लिए, EM), लेकिन यह वह एल्गोरिथम है जिसका आप उपयोग करते हैं, और किसी भी दर पर इसे आपको पूर्व-निर्दिष्ट k की आवश्यकता नहीं है। आप मेरे लिंक किए गए उदाहरण में स्पष्ट रूप से देख सकते हैं कि मैंने वहां पहले से निर्दिष्ट नहीं किया था।
गुंग - को पुनः स्थापित मोनिका

13

सबसे सरल उदाहरण पदानुक्रमिक क्लस्टरिंग है , जहां आप कुछ दूरी माप का उपयोग करके एक-दूसरे बिंदु के साथ प्रत्येक बिंदु की तुलना करते हैं , और फिर उस जोड़ी में शामिल होते हैं जिसमें सम्मिलित छद्म बिंदु बनाने के लिए सबसे छोटी दूरी होती है (जैसे b और c छवि के अनुसार bc बनाता है नीचे)। आगे आप बिंदुओं और छद्म बिंदुओं को जोड़कर प्रक्रिया को दोहराते हैं, जब तक कि प्रत्येक बिंदु ग्राफ के साथ जुड़ नहीं जाता तब तक उनकी जोड़ीदार दूरी के आधार पर।

विकिपीडिया चित्रण

(स्रोत: https://en.wikipedia.org/wiki/Hierarchical_clustering )

प्रक्रिया गैर-पैरामीट्रिक है और केवल एक चीज जो आपको इसके लिए आवश्यक है वह है दूरी माप। अंत में आप कैसे तय करने के लिए की जरूरत है काटना , पेड़ ग्राफ इस प्रक्रिया का उपयोग कर बनाई तो समूहों जरूरतों की अपेक्षित संख्या के बारे में कोई फैसला किया जाएगा।


किसी भी तरह से छंटनी का मतलब यह नहीं है कि आप क्लस्टर संख्या पर निर्णय ले रहे हैं?
Learn_and_Share

1
@MedNait जो मैंने कहा है। क्लस्टर विश्लेषण में आप हमेशा इस तरह के निर्णय करने के लिए है, केवल सवाल यह है कि कैसे जैसे यह मनमाने ढंग से हो सकता है, या यह आदि संभावना आधारित मॉडल फिट जैसे कुछ उचित कसौटी के आधार पर किया जा सकता है - है इसे बनाया
टिम

1
यह इस बात पर निर्भर करता है कि आप वास्तव में @MedNait के बाद क्या हैं। पदानुक्रमित क्लस्टरिंग से आपको क्लस्टर की संख्या को पूर्व-निर्दिष्ट करने की आवश्यकता नहीं होती है , जिस तरह से k-mean करता है, लेकिन आप अपने आउटपुट से कई क्लस्टर चुन रहे हैं। दूसरी ओर, DBSCAN को या तो इसकी आवश्यकता नहीं होती है (लेकिन इसमें 'पड़ोस' के लिए न्यूनतम अंकों के विनिर्देश की आवश्यकता होती है - हालांकि चूक हैं - जो एक क्लस्टर में पैटर्न की संख्या पर एक मंजिल डालती हैं) । GMM को भी इसकी आवश्यकता नहीं है, लेकिन डेटा जनरेटिंग प्रक्रिया के बारे में पैरामीट्रिक मान्यताओं की आवश्यकता है। आदि
गुंग - को पुनः स्थापित मोनिका

10

पैरामीटर अच्छे हैं!

एक "पैरामीटर-मुक्त" विधि का मतलब है कि आपको केवल एक शॉट मिलता है (शायद यादृच्छिकता को छोड़कर), जिसमें कोई अनुकूलन संभावनाएं नहीं हैं।

अब क्लस्टरिंग एक खोजपूर्ण तकनीक है। आपको यह नहीं मानना ​​चाहिए कि एक एकल "सच" क्लस्टरिंग है । आपको इसके बारे में अधिक जानने के लिए एक ही डेटा के विभिन्न समूहों की खोज करने में दिलचस्पी लेनी चाहिए । ब्लैक बॉक्स के रूप में क्लस्टरिंग का इलाज कभी भी अच्छा नहीं होता है।

उदाहरण के लिए, आप अपने डेटा के आधार पर उपयोग की जाने वाली दूरी फ़ंक्शन को अनुकूलित करना चाहते हैं (यह भी एक पैरामीटर है!) यदि परिणाम बहुत अधिक है, तो आप बेहतर परिणाम प्राप्त करने में सक्षम होना चाहते हैं, या यदि यह बहुत अच्छा है , इसका एक मोटे संस्करण प्राप्त करें।

सबसे अच्छे तरीके अक्सर वे होते हैं जो आपको परिणाम को अच्छी तरह से नेविगेट करने देते हैं, जैसे कि पदानुक्रमित क्लस्टरिंग में डेंड्रोग्राम। फिर आप आसानी से उपग्रहों का पता लगा सकते हैं।


0

की जाँच करें Dirichlet मिश्रण मॉडल । यदि आप पहले से समूहों की संख्या नहीं जानते हैं, तो वे डेटा की समझ बनाने का एक अच्छा तरीका प्रदान करते हैं। हालांकि, वे गुच्छों के आकार के बारे में धारणा बनाते हैं, जो आपके डेटा का उल्लंघन कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.