एक क्लस्टरिंग विधि का चयन


73

समान मामलों को समूह में सेट किए गए डेटा पर क्लस्टर विश्लेषण का उपयोग करते समय, किसी को बड़ी संख्या में क्लस्टरिंग विधियों और दूरी के उपायों के बीच चयन करने की आवश्यकता होती है। कभी-कभी, एक विकल्प दूसरे को प्रभावित कर सकता है, लेकिन तरीकों के कई संभावित संयोजन हैं।

क्या किसी को विभिन्न क्लस्टरिंग एल्गोरिदम / विधियों और दूरी के उपायों के बीच चयन करने के बारे में कोई सिफारिश है ? यह चर की प्रकृति (जैसे, श्रेणीबद्ध या संख्यात्मक) और क्लस्टरिंग समस्या से कैसे संबंधित है? क्या कोई इष्टतम तकनीक है?


1
क्या आप क्लस्टर के लिए क्या चाहते हैं, इसका अधिक विशिष्ट विवरण देने का प्रयास कर सकते हैं? या क्या यह कला की एक अवस्था है जो आपको चाहिए?
रॉबिन जिरार्ड

2
मेरे पास तत्काल आवेदन नहीं है। मैं सिर्फ एक क्लस्टरिंग विधि और समानता के उपाय को चुनने के लिए एक सामान्य दृष्टिकोण में दिलचस्पी रखता हूं।
ब्रेट

भी की जाँच करें इस समान प्रश्न।
ttnphns

और कुछ कैवेट विशेष रूप से पदानुक्रमित क्लस्टरिंग विधियों को लिखते हैं।
ttnphns

जवाबों:


43

आपके प्रश्न का कोई निश्चित उत्तर नहीं है, क्योंकि एक ही विधि के भीतर भी व्यक्तियों (डिस) की समानता का प्रतिनिधित्व करने के लिए दूरी का चुनाव अलग-अलग परिणाम दे सकता है, जैसे कि यूक्लिडियन बनाम स्क्वेर यूक्लिडियन का उपयोग पदानुक्रमिक क्लस्टरिंग में। एक अन्य उदाहरण के रूप में, द्विआधारी डेटा के लिए, आप जैककार्ड इंडेक्स को समानता के उपाय के रूप में चुन सकते हैं और शास्त्रीय पदानुक्रम के साथ आगे बढ़ सकते हैं; लेकिन वैकल्पिक दृष्टिकोण हैं, जैसे मोना ( मोनोटेटिक एनालिसिस)) एल्गोरिथ्म जो केवल एक समय में एक चर मानता है, जबकि अन्य पदानुक्रमित दृष्टिकोण (जैसे शास्त्रीय एचसी, एग्नेस, डायना) प्रत्येक चरण में सभी चर का उपयोग करते हैं। K- साधन दृष्टिकोण को विभिन्न तरीकों से बढ़ाया गया है, जिसमें सेंट्रोइड्स के बजाय मेडोइड्स (पीएएम) या प्रतिनिधि वस्तुओं का विभाजन शामिल है (काफ़मैन और रूसो, 1990), या फ़ज़ी क्लस्टरिंग (चुंग और ली, 1992)। उदाहरण के लिए, k- साधन और PAM के बीच मुख्य अंतर यह है कि PAM वर्गीय यूक्लिडियन दूरियों के योग के बजाय असमानताओं का योग न्यूनतम करता है; फजी क्लस्टरिंग "आंशिक सदस्यता" पर विचार करने की अनुमति देता है (हम प्रत्येक अवलोकन को एक वज़न को दर्शाते हुए वर्ग सदस्यता से संबद्ध करते हैं)। और एक संभाव्य ढांचे पर निर्भर तरीकों के लिए, या तथाकथित मॉडल-आधारित क्लस्टरिंग (या अव्यक्त प्रोफ़ाइल विश्लेषण)मनोचिकित्सकों के लिए), एक शानदार पैकेज है: Mclust । तो निश्चित रूप से, आपको इस बात पर विचार करने की आवश्यकता है कि व्यक्तियों के समानता के साथ-साथ व्यक्तियों को एक साथ जोड़ने के लिए विधि (पुनरावर्ती या पुनरावृत्त क्लस्टरिंग, सख्त या फ़र्ज़ी वर्ग सदस्यता, अनसुनी या अर्ध-पर्यवेक्षित दृष्टिकोण, आदि) को कैसे निर्धारित किया जाए।

आमतौर पर, क्लस्टर स्थिरता का आकलन करने के लिए, कई एल्गोरिदम की तुलना करना दिलचस्प है जो मूल रूप से कुछ समानता (जैसे k- साधन और पदानुक्रमिक क्लस्टरिंग, क्योंकि दोनों के लिए यूक्लिडियन दूरी काम करते हैं) को "साझा" करते हैं। दो क्लस्टर समाधानों के बीच सहमति का आकलन करने के लिए, इस बिंदु के जवाब में कुछ बिंदुओं का सुझाव दिया गया था, जहां एक डेंड्रोग्राम काटना है? (इस वेबसाइट पर अन्य लिंक के लिए क्रॉस-रेफरेंस भी देखें)। यदि आप R का उपयोग कर रहे हैं, तो आप देखेंगे कि क्लस्टर विश्लेषण पर टास्क व्यू में कई पैकेज पहले से उपलब्ध हैं, और कई पैकेजों में vignettes शामिल हैं जो विशिष्ट विधियों की व्याख्या करते हैं या केस स्टडी प्रदान करते हैं।

क्लस्टर एनालिसिस: बेसिक कॉन्सेप्ट्स और अल्गोरिथम क्लस्टर विश्लेषण में उपयोग की जाने वाली कई तकनीकों का अच्छा अवलोकन प्रदान करते हैं। आर चित्र के साथ एक अच्छी हालिया पुस्तक के लिए, मैं Izenman के अध्याय 12, आधुनिक बहुभिन्नरूपी सांख्यिकीय तकनीकों (स्प्रिंगर, 2008) की सिफारिश करूंगा । कुछ अन्य मानक संदर्भ नीचे दिए गए हैं:

  • कॉर्मैक, आर।, 1971. वर्गीकरण की समीक्षा। जर्नल ऑफ़ द रॉयल स्टैटिस्टिकल सोसाइटी, ए 134, 321–367।
  • एवरिट, बी।, 1974. क्लस्टर विश्लेषण । लंदन: हनीमैन एडुक। पुस्तकें।
  • गॉर्डन, ए।, 1987. पदानुक्रमित वर्गीकरण की समीक्षा। रॉयल स्टेटिस्टिकल सोसायटी का जर्नल, ए 150, 119–137।
  • गॉर्डन, ए।, 1999. वर्गीकरण , दूसरा संस्करण। चैपमैन और हॉल।
  • कॉफ़मैन, एल।, रूसेवु, पी।, 1990। डेटा में समूह ढूँढना: क्लस्टर विश्लेषण का एक परिचय । न्यूयॉर्क, विले।

30

हस्ती, टिबशिरानी और फ्रीडमैन के एक उद्धरण, सांख्यिकीय शिक्षा के तत्व , पी। 506:

"क्लस्टरिंग एल्गोरिथ्म की पसंद की तुलना में क्लस्टरिंग के साथ सफलता प्राप्त करने में एक उचित असमानता का उपाय कहीं अधिक महत्वपूर्ण है। समस्या का यह पहलू ... डोमेन विशिष्ट ज्ञान पर निर्भर करता है और सामान्य अनुसंधान के लिए कम उत्तरदायी है।"

(उस ने कहा, क्या यह अच्छा नहीं होगा यदि (वाइबनी) कोई ऐसी साइट होती जहां छात्र कुछ छोटे मानक डेटासेट पर कुछ एल्गोरिदम और मैट्रिक्स की कोशिश कर सकते हैं?)


धन्यवाद ची; क्या आप "उदाहरण वेब पर चलाए जा सकते हैं" के लिए एक टैग सुझा सकते हैं?
Denis

आप प्रश्न को फिर से शुरू करने के लिए हैं (मुझे नहीं लगता कि यह एक अच्छा विचार है क्योंकि ओपी ऑनलाइन बेंचमार्किंग टूल, आईएमओ के बाद नहीं था) या एक नया प्रश्न पूछना चाहता था? वैसे भी, मुझे फिलहाल अच्छे टैग का कोई पता नहीं है। मेटा पर पूछें?
CHL

1
यह उद्धरण भ्रामक हो सकता है - यह स्पष्ट रूप से विकिपीडिया पर (संयुक्त रूप से वंचित) उदाहरणों पर लागू नहीं होता है । दूसरे डेटा सेट में मजबूत गैर-रैखिक क्लस्टर के कारण, लिंकेज और घनत्व क्लस्टरिंग एल्गोरिदम किसी भी सेंट्रोइड-आधारित विधि की तुलना में कहीं बेहतर काम करते हैं। वहाँ कोई समानता उपाय है कि एक केन्द्रक क्लस्टरिंग योजना बेहतर काम करेगा। यह उद्धरण केवल तभी लागू होता है जब आप मानते हैं कि क्लस्टर मोटे तौर पर रैखिक (कभी-कभी एक सुरक्षित धारणा) हैं। मेरा सुझाव है कि यदि संभव हो तो पहले अपने डेटा का निरीक्षण करें।
n

@ naught101, निश्चित रूप से - समानता / असमानता को देखने के लिए डेटा का निरीक्षण करना सबसे महत्वपूर्ण है, लेकिन आसान काम की तुलना में कहा जाता है
डेनिस

यह उद्धरण किस संस्करण से है? क्या आप इसके उद्धरण ty दे सकते हैं
मॉन्स्टरमोरपीजी

12

आप पहले से नहीं जान सकते हैं कि कौन सा कलन विधि एल्गोरिथ्म बेहतर होगा, लेकिन कुछ सुराग हैं, उदाहरण के लिए यदि आप छवियों को क्लस्टर करना चाहते हैं तो कुछ निश्चित एल्गोरिदम हैं जिन्हें आपको पहले फ़ज़ी आर्ट की तरह आज़माना चाहिए, या यदि आप समूह का सामना करना चाहते हैं तो आपको शुरू करना चाहिए (GGCI) छवि के लिए वैश्विक ज्यामितीय क्लस्टरिंग के साथ।

वैसे भी यह सर्वोत्तम परिणाम की गारंटी नहीं देता है, इसलिए मैं क्या करूँगा एक प्रोग्राम का उपयोग करता हूं जो आपको अलग-अलग क्लस्टर एल्गोरिदम, जैसे कि वीका, रैपिडमाइनर या यहां तक ​​कि आर (जो कि गैर दृश्य है) को चलाने की अनुमति देता है, वहां मैं कार्यक्रम को सेट करूंगा सभी अलग-अलग क्लस्टरिंग एल्गोरिदम को लॉन्च कर सकता हूं, जो सभी संभव अलग-अलग दूरी के साथ हो सकता है, और अगर उन्हें मापदंडों की आवश्यकता होती है, तो प्रत्येक को अलग-अलग पैरामीटर मानों के साथ प्रयोग करें (इसके अलावा अगर मुझे क्लस्टर की मात्रा नहीं पता है, तो प्रत्येक को एक दूसरे के साथ चलाएं। इसकी संख्या)। एक बार जब आप प्रयोग को निपटा लेते हैं, तो इसे चलाना छोड़ देते हैं, लेकिन याद रखें कि प्रत्येक क्लस्टरिंग रन के परिणाम कहीं न कहीं स्टोर करना होगा।

फिर सर्वोत्तम परिणामी क्लस्टरिंग प्राप्त करने के लिए परिणामों की तुलना करें। यह मुश्किल है क्योंकि कई मैट्रिक्स हैं जिनकी आप तुलना कर सकते हैं और सभी हर एल्गोरिथम द्वारा प्रदान नहीं किए गए हैं। उदाहरण के लिए फजी क्लस्टरिंग एल्गोरिदम में गैर-फजी की तुलना में अलग-अलग मेट्रिक्स होते हैं, लेकिन फिर भी फजी परिणाम वाले समूहों को गैर-फजी मानकर तुलना की जा सकती है, मैं क्लासिक मैट्रिक्स की तुलना के लिए छड़ी करूंगा जैसे:

• SSE: प्रत्येक क्लस्टर के आइटम से वर्ग त्रुटि का योग।

• इंटर क्लस्टर दूरी: प्रत्येक क्लस्टर सेंट्रोइड के बीच वर्ग दूरी का योग।

• प्रत्येक क्लस्टर के लिए इंट्रा क्लस्टर की दूरी: प्रत्येक क्लस्टर के आइटम से लेकर उसके केन्द्रक तक वर्ग दूरी का योग।

• अधिकतम त्रिज्या: उदाहरण के लिए इसके क्लस्टर सेंट्रोइड से सबसे बड़ी दूरी।

• औसत त्रिज्या: क्लस्टर की संख्या से विभाजित अपने क्लस्टर सेंट्रो से उदाहरण के लिए सबसे बड़ी दूरी का योग।


4

सही दूरी चुनना कोई प्राथमिक कार्य नहीं है। जब हम डेटा सेट पर क्लस्टर विश्लेषण करना चाहते हैं, तो अलग-अलग परिणाम अलग-अलग दूरी का उपयोग करते हुए दिखाई दे सकते हैं, इसलिए यह सावधान रहना बहुत ज़रूरी है कि किस दूरी को चुनना है क्योंकि हम एक झूठे अच्छे आर्टिफैक्ट बना सकते हैं जो अच्छी तरह से परिवर्तनशीलता को पकड़ते हैं, लेकिन वास्तव में बिना हमारी समस्या में समझ।

इयूक्लिडियन दूरी जब मैं निरंतर संख्यात्मक चर है और मैं पूर्ण दूरी को प्रतिबिंबित करना चाहते हैं उचित है। यह दूरी हर चर को ध्यान में रखती है और अतिरेक को दूर नहीं करती है, इसलिए यदि मेरे पास तीन चर हैं जो एक ही व्याख्या करते हैं (सहसंबद्ध हैं), तो मैं इस प्रभाव को तीन से कम कर दूंगा। इसके अलावा, यह दूरी पैमाना नहीं है, इसलिए आम तौर पर मुझे दूरी का उपयोग करने के लिए पहले से स्केल करना पड़ता है।
उदाहरण पारिस्थितिकी: हमारे पास कई क्षेत्रों के अलग-अलग अवलोकन हैं, जिनमें से विशेषज्ञों ने कुछ सूक्ष्मजीवविज्ञानी, भौतिक और रासायनिक कारकों के नमूने लिए हैं। हम पारिस्थितिकी तंत्र में पैटर्न ढूंढना चाहते हैं। इन कारकों का उच्च संबंध है, लेकिन हम जानते हैं कि हर कोई प्रासंगिक है, इसलिए हम इन अतिरेक को दूर नहीं करना चाहते हैं। इकाइयों के प्रभाव से बचने के लिए हम स्केल डेटा के साथ यूक्लिडियन दूरी का उपयोग करते हैं।

महालनोबिस दूरी जब मैं निरंतर संख्यात्मक चर है और मैं पूर्ण दूरी को प्रतिबिंबित करना चाहते हैं, लेकिन हम अतिरिक्तताओं निकालना चाहते हैं उचित है। यदि हमने चर दोहराया है, तो उनका दोहराव प्रभाव गायब हो जाएगा।

परिवार के हेलिंगर , प्रजाति प्रोफ़ाइल और कॉर्ड की दूरी तब उपयुक्त होती है, जब हम अलग-अलग प्रोफ़ाइलों के बीच अंतर पर जोर देना चाहते हैं, जब हम प्रोफाइल को अलग करना चाहते हैं। ये दूरियां प्रत्येक अवलोकन की कुल मात्रा से वजन करती हैं, इस तरह से कि दूरी छोटी होती है जब चर द्वारा चर व्यक्तियों के समान होते हैं, हालांकि पूर्ण परिमाण में बहुत अलग था। ध्यान रहे! ये दूरी प्रोफाइल के अंतर को बहुत अच्छी तरह से दर्शाती है, लेकिन परिमाण प्रभाव को खो देती है। वे बहुत उपयोगी हो सकते हैं जब हमारे पास विभिन्न नमूना आकार होते हैं। उदाहरण पारिस्थितिकी: हम कई भूमियों के जीवों का अध्ययन करना चाहते हैं और हमारे पास गैस्ट्रोपोड की एक सूची का एक डेटा मैट्रिक्स है (पंक्तियों में नमूने के स्थानों और स्तंभों में प्रजातियों के नाम)। मैट्रिक्स में कई शून्य और विभिन्न परिमाण होने की विशेषता है क्योंकि कुछ इलाकों में कुछ प्रजातियां हैं और अन्य में अन्य प्रजातियां हैं। हम हेलिंगर दूरी का उपयोग कर सकते हैं।

ब्रे-कर्टिस काफी समान है, लेकिन यह अधिक उपयुक्त है जब हम प्रोफाइल को अलग करना चाहते हैं और रिश्तेदार परिमाण को भी ध्यान में रखते हैं।


1
कृपया अपने खातों को पंजीकृत करें और / या मर्ज करें 1 2 (आप हमारे सहायता केंद्र के मेरा खाता अनुभाग में यह कैसे करें के बारे में जानकारी पा सकते हैं )। तब आप अपने जवाबों, उन पर आने वाली प्रतिक्रियाओं, आदि, और अन्य लाभों पर भी नज़र रख पाएंगे। चूंकि आप यहां नए हैं, इसलिए आप हमारे दौरे को ले सकते हैं , जिसमें नए उपयोगकर्ताओं के लिए जानकारी है।
गंग

आप पहले से ही समान थ्रेड में समान उत्तर आँकड़े .stackexchange.com/ a/ 253268/3277 प्रकाशित कर चुके हैं । अनुत्तरित उत्तर को उचित नहीं माना जाता है। मैं आपको वर्तमान को हटाने के लिए सुझाव दूंगा। लेकिन आप अपने अन्य उत्तर (ओं) के लिए एक लिंक पोस्ट करने के लिए स्वागत कर सकते हैं - एक ओपी के सवाल के नीचे टिप्पणी के रूप में या वर्तमान धागे में कुछ उत्तर दे।
tnnphns

2

जहां तक ​​मेरा सवाल है, यदि आप एक सुरक्षित विकल्प चाहते हैं, तो हाल के वर्षों में वर्णक्रमीय क्लस्टरिंग विधि सटीकता दर प्राप्त कर रही है - कम से कम छवि क्लस्टरिंग में।

दूरी मीट्रिक के लिए, यह इस बात पर बहुत निर्भर करता है कि आपका डेटा कैसे व्यवस्थित है। सुरक्षित विकल्प सरल यूक्लिडियन दूरी है लेकिन अगर आपको पता है कि आपके डेटा में कई गुना हैं, तो आपको कर्नेल विधियों के माध्यम से बिंदुओं को मैप करना चाहिए।

पुनश्च: वे सभी संख्यात्मक मूल्यों से संबंधित हैं, न कि श्रेणीबद्ध। मुझे यकीन नहीं है कि कोई स्पष्ट डेटा के क्लस्टरिंग के बारे में कैसे जाएगा।


2

यहां कई क्लस्टरिंग एल्गोरिदम का सारांश है जो प्रश्न का उत्तर देने में मदद कर सकता है

"किस क्लस्टरिंग तकनीक का मुझे उपयोग करना चाहिए?"

कोई उद्देश्यपूर्ण "सही" क्लस्टरिंग एल्गोरिदम रेफ नहीं है

क्लस्टरिंग एल्गोरिदम को उनके "क्लस्टर मॉडल" के आधार पर वर्गीकृत किया जा सकता है। एक विशेष प्रकार के मॉडल के लिए डिज़ाइन किया गया एल्गोरिथ्म आमतौर पर एक अलग तरह के मॉडल पर विफल हो जाएगा। उदाहरण के लिए, k- साधन गैर-उत्तल समूहों को नहीं पा सकते हैं, यह केवल गोलाकार आकार के समूहों को पा सकते हैं।

इसलिए, इन "क्लस्टर मॉडल" को समझना यह समझने की कुंजी बन जाता है कि विभिन्न क्लस्टरिंग एल्गोरिदम / विधियों में से कैसे चुनें। विशिष्ट क्लस्टर मॉडल में शामिल हैं:

[१] कनेक्टिविटी मॉडल: दूरी कनेक्टिविटी के आधार पर मॉडल बनाता है। उदा। श्रेणीबद्ध क्लस्टरिंग। पेड़ों की कटाई की ऊँचाई के आधार पर हमें अलग-अलग विभाजन की आवश्यकता होती है। आर समारोह: आँकड़े पैकेज में hclust।

[२] सेंट्रोइड मॉडल: एकल मीन वेक्टर द्वारा प्रत्येक क्लस्टर का प्रतिनिधित्व करके मॉडल बनाता है। इसका उपयोग तब किया जाता है जब हमें कुरकुरा विभाजन की आवश्यकता होती है (जैसा कि बाद में वर्णित फजी क्लस्टरिंग के विपरीत है)। आर समारोह: सांख्यिकी पैकेज में kmeans।

[३] वितरण मॉडल: सांख्यिकीय वितरण पर आधारित मॉडल का निर्माण करता है जैसे कि बहुभिन्नरूपी सामान्य वितरण अपेक्षा-अधिकतमकरण एल्गोरिदम द्वारा उपयोग किया जाता है। जब क्लस्टर आकार k- साधनों के विपरीत मनमाना हो सकता है जो परिपत्र समूहों को मानता है। आर फ़ंक्शन: एमक्लस्टर पैकेज में एमक्लस्टर।

[४] घनत्व मॉडल: डेटा स्पेस में जुड़े घने क्षेत्रों के रूप में क्लस्टर के आधार पर मॉडल बनाता है। जैसे DBSCAN और प्रकाशिकी। उपयोग किया जाता है जब क्लस्टर आकार k- साधनों के विपरीत मनमाना हो सकता है जो परिपत्र समूहों को मानता है .. R फ़ंक्शन dbscan in पैकेज dbscan।

[५] सबस्पेस मॉडल: क्लस्टर सदस्यों और प्रासंगिक विशेषताओं दोनों के आधार पर मॉडल बनाता है। उदाहरण के लिए (जिसे सह-क्लस्टरिंग या टू-मोड-क्लस्टरिंग के रूप में भी जाना जाता है)। एक साथ पंक्ति और स्तंभ क्लस्टरिंग की आवश्यकता होने पर उपयोग किया जाता है। बिकलस्ट पैकेज में आर फंक्शन बाइक्लस्ट।

[६] समूह मॉडल: समूह जानकारी के आधार पर मॉडल बनाता है। उदाहरण के लिए सहयोगी फ़िल्टरिंग (अनुशंसित एल्गोरिथम)। सिफारिशकर्ता पैकेज में आर फ़ंक्शन अनुशंसाकर्ता।

[Based] ग्राफ-आधारित मॉडल: प्रतिरूप पर आधारित मॉडल बनाता है। सामुदायिक संरचना का पता लगाने वाले एल्गोरिदम निर्देशित या अप्रत्यक्ष ग्राफ़ में घने उपसमूह खोजने की कोशिश करते हैं। आईजी आर पैकेज में एग आर फ़ंक्शन क्लस्टर_वॉकट्रैप।

[[] कोहेनन सेल्फ-ऑर्गनाइजिंग फ़ीचर मैप: न्यूरल नेटवर्क पर आधारित मॉडल बनाता है। कोहेनन पैकेज में आर फ़ंक्शन सोम।

[९] स्पेक्ट्रल क्लस्टरिंग: गैर-उत्तल क्लस्टर संरचना के आधार पर मॉडल बनाता है, या जब केंद्र का एक माप पूर्ण क्लस्टर का उपयुक्त विवरण नहीं होता है। समारोह kernlab पैकेज में स्पेक।

[१०] उप-क्लस्टर क्लस्टरिंग: उच्च-आयामी डेटा के लिए, दूरी के कार्य समस्याग्रस्त हो सकते हैं। क्लस्टर मॉडल में क्लस्टर के लिए प्रासंगिक विशेषताएँ शामिल हैं। जैसे, आर पैकेज एचडीक्लासिफ में एचडीडीसी फ़ंक्शन।

[११] अनुक्रम क्लस्टरिंग: समूह अनुक्रम जो संबंधित हैं। rBlast पैकेज।

[१२] आत्मीयता का प्रसार: डेटा बिंदुओं के बीच संदेश के आधार पर मॉडल बनाता है। यह एल्गोरिथ्म चलाने से पहले समूहों की संख्या निर्धारित करने की आवश्यकता नहीं है। यह कुछ कंप्यूटर दृष्टि और कम्प्यूटेशनल जीव विज्ञान कार्यों के लिए बेहतर है, उदाहरण के लिए मानव चेहरे के चित्रों का क्लस्टरिंग और विनियमित साधनों की पहचान, k- साधन, Ref Rpackage APCluster की तुलना में।

[१३] स्ट्रीम क्लस्टरिंग: डेटा पर आधारित मॉडल बनाता है जो लगातार टेलीफोन रिकॉर्ड, वित्तीय लेनदेन आदि जैसे पहुंचते हैं। जैसे R पैकेज BIRCH [ https://cran.r-project.org/src/contrib/Archive/birch/]

[१४] दस्तावेज़ क्लस्टरिंग (या टेक्स्ट क्लस्टरिंग): एसवीडी पर आधारित मॉडल बनाता है। इसका उपयोग विषय निष्कर्षण में किया गया है। Eg Carrot [ http://search.carrot2.org] एक खुला स्रोत खोज परिणाम क्लस्टरिंग इंजन है जो विषयगत श्रेणियों में दस्तावेजों को क्लस्टर कर सकता है।

[१५] अव्यक्त वर्ग मॉडल: यह अव्यक्त चर के एक सेट के लिए बहुभिन्नरूपी चर से संबंधित है। LCA सहयोगी फ़िल्टरिंग में उपयोग किया जा सकता है। रिकमेंडरलैब पैकेज में आर फंक्शनल अटेंडर के पास सहयोगी फ़िल्टरिंग कार्यक्षमता है।

[१६] बाइकलिस्टिंग: एक साथ दो-मोड डेटा की पंक्तियों और स्तंभों का उपयोग किया जाता है। एग आर फंक्शन बाइक्लस्ट इन पैकेज बिकल।

[१ust] सॉफ्ट क्लस्टरिंग (फजी क्लस्टरिंग): प्रत्येक ऑब्जेक्ट प्रत्येक क्लस्टर के एक निश्चित डिग्री के अंतर्गत आता है। फेकल पैकेज में ईजी आर फक्स्टल फ़ंक्शन।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.