हम अन्य एल्गोरिदम के बजाय k- साधनों का उपयोग क्यों करते हैं?


14

मैंने k- साधनों के बारे में शोध किया और ये मुझे मिले: k-mean सबसे सरल एल्गोरिथ्म में से एक है जो ज्ञात क्लस्टरिंग समस्याओं को हल करने के लिए अप्रशिक्षित शिक्षण पद्धति का उपयोग करता है। यह बड़े डेटासेट के साथ वास्तव में अच्छी तरह से काम करता है।

हालांकि, के-मीन्स की कमियां भी हैं जो हैं:

  • आउटलेर्स और शोर के लिए मजबूत संवेदनशीलता
  • गैर-परिपत्र क्लस्टर आकार के साथ अच्छी तरह से काम नहीं करता है - क्लस्टर की संख्या और प्रारंभिक बीज मूल्य को पहले से निर्दिष्ट करने की आवश्यकता है
  • स्थानीय इष्टतम को पारित करने की कम क्षमता।

क्या k- साधनों के बारे में कुछ महान है, क्योंकि ऐसा लगता है कि कमियां k- साधनों के बारे में अच्छी चीजों से परे हैं।

कृपया मुझे सिखाओ।


3
एक समस्या के संदर्भ के बिना एक अच्छी विधि या अच्छे एल्गोरिथ्म के रूप में ऐसी कोई चीज नहीं है जिसमें इसका उपयोग किया जाता है। इस प्रकार हम k- साधनों का उपयोग करते हैं क्योंकि ऐसी समस्याएं हैं जिनके लिए k- साधन एक इष्टतम समाधान है (;

जवाबों:


8

बेहतर सुविधाओं के साथ अन्य क्लस्टरिंग एल्गोरिदम अधिक महंगे हैं। इस मामले में, k- साधन पूर्व-क्लस्टरिंग के लिए एक महान समाधान बन जाता है, जिससे अंतरिक्ष को छोटे उप-रिक्त स्थान से अलग कर दिया जाता है जहां अन्य क्लस्टरिंग एल्गोरिदम लागू किया जा सकता है।


कार्यक्रम की लागत के रूप में अधिक महंगा है? या?
पैटर्न के साथ गोल्ड खोपड़ी

5
धीमी और स्मृति-गहन के रूप में अधिक महंगा है।
मार्टिन ओ'लेरी

ओह मैं समझा। क्या तेज, मजबूत और समझने में आसान के अलावा कोई अन्य लाभ है? और वैसे भी प्रतिक्रियाओं के लिए धन्यवाद @ MartinO'Leary और @ zeferino
पैटर्न

6

K- साधन सबसे सरल है। लागू करने के लिए और चलाने के लिए। आपको बस "k" चुनना है और इसे कई बार चलाना है।

अधिकांश अधिक चतुर एल्गोरिदम (विशेष रूप से अच्छे वाले) कुशलता से लागू करने के लिए बहुत कठिन हैं (आप रनटाइम मतभेदों में 100x के कारक देखेंगे) और सेट करने के लिए बहुत अधिक पैरामीटर हैं।

इसके अलावा, ज्यादातर लोगों को गुणवत्ता वाले समूहों की आवश्यकता नहीं होती है । वे वास्तव में उनके लिए काम कर रहे किसी भी चीज से खुश हैं। इसके अलावा, वे वास्तव में नहीं जानते कि क्या करना है जब उनके पास अधिक जटिल क्लस्टर थे। K- का मतलब है, जो मॉडल सरलतम मॉडल का उपयोग करके क्लस्टर करते हैं - एक सेंट्रोइड - ठीक वही है जो उन्हें चाहिए: सेंट्रोइड्स के लिए बड़े पैमाने पर डेटा में कमी ।


0

K- साधन एक्सचेंज सॉर्ट एल्गोरिथ्म की तरह है। समझने में आसान, किसी को विषय में लाने में मदद करता है, लेकिन कभी भी वास्तविक, कभी भी, के लिए उपयोग नहीं किया जाना चाहिए। एक्सचेंज सॉर्ट के मामले में, यहां तक ​​कि बबल सॉर्ट बेहतर है क्योंकि यह सरणी को आंशिक रूप से सॉर्ट करने पर जल्दी बंद हो सकता है। K- साधनों के मामले में, EM एल्गोरिथ्म एक ही एल्गोरिथ्म है, लेकिन K- साधनों की समान वितरण धारणा के बजाय गुच्छों के लिए गाऊसी वितरण को मानता है। K- साधन ईएम का एक किनारा मामला है जब सभी समूहों में विकर्ण सहसंयोजक मैट्रिक्स होते हैं। गॉसियन संरचना का अर्थ है कि क्लस्टर बहुत अच्छे तरीके से डेटा को सिकोड़ते हैं। यह आपके द्वारा प्रश्न में सही ढंग से उठाई गई गंभीर आपत्तियों के आसपास हो जाता है। और EM, K- साधनों की तुलना में बहुत अधिक महंगा नहीं है। (मैं एक्सेल स्प्रेडशीट में दोनों को लागू कर सकता हूं।) लेकिन गंभीर क्लस्टरिंग अनुप्रयोगों के लिए,

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.