K- साधन बनाम ऑनलाइन K- साधन


15

K- साधन क्लस्टरिंग के लिए एक प्रसिद्ध एल्गोरिथ्म है, लेकिन इस तरह के एल्गोरिथ्म (ऑनलाइन K- साधन) का ऑनलाइन रूपांतर भी है। इन तरीकों के पक्ष और विपक्ष क्या हैं, और प्रत्येक को कब प्राथमिकता दी जानी चाहिए?

जवाबों:


11

ऑनलाइन के-साधन (अधिक सामान्यतः क्रमिक k- साधन के रूप में जाना जाता है ) और पारंपरिक k- साधन बहुत समान हैं। अंतर यह है कि ऑनलाइन के-साधन आपको मॉडल को अपडेट करने की अनुमति देता है क्योंकि नया डेटा प्राप्त होता है।

ऑनलाइन के-साधनों का उपयोग तब किया जाना चाहिए जब आप डेटा को एक-एक करके प्राप्त करने की उम्मीद करते हैं (या शायद विखंडू में)। इससे आप अपने मॉडल को अपडेट कर सकते हैं क्योंकि आपको इसके बारे में अधिक जानकारी मिलती है। इस पद्धति का दोष यह है कि यह उस क्रम पर निर्भर करता है जिसमें डेटा प्राप्त होता है ( Ref )।


7

मूल MacQueen k- साधन प्रकाशन (नाम "kmeans" का उपयोग करने वाला पहला) एक ऑनलाइन एल्गोरिथ्म है।

मैकक्वीन, जेबी (1967)। "मल्टीवेरिएट ऑब्जर्वेशन के वर्गीकरण और विश्लेषण के लिए कुछ तरीके"। गणितीय सांख्यिकी और संभाव्यता पर 5 वीं बर्कले संगोष्ठी की कार्यवाही 1. कैलिफोर्निया विश्वविद्यालय प्रेस। पीपी। 281-297

प्रत्येक बिंदु को निर्दिष्ट करने के बाद, एक साधारण भारित-औसत सूत्र का उपयोग करके औसत को औसत रूप से अपडेट किया जाता है (पुराने माध्य n के साथ भारित किया जाता है, नए अवलोकन को 1 के साथ भारित किया जाता है, यदि माध्य के पहले n अवलोकन होते थे)।

जहाँ तक मैं बता सकता हूँ, यह भी केवल डेटा पर एक पास होने का मतलब था, हालांकि अभिसरण तक बिंदुओं को पुन: असाइन करने के लिए इसे कई बार दोहराया जा सकता है।

MacQueen आमतौर पर लॉयड्स की तुलना में कम पुनरावृत्तियों लेता है यदि आपके डेटा को फेरबदल किया जाता है (क्योंकि इसका मतलब है कि यह तेजी से मतलब है!)। ऑर्डर किए गए डेटा पर, इसे समस्याएं हो सकती हैं। नकारात्मक पक्ष पर, प्रत्येक वस्तु के लिए अधिक गणना की आवश्यकता होती है, इसलिए प्रत्येक पुनरावृत्ति में थोड़ा अधिक समय लगता है (अतिरिक्त गणित संचालन, स्पष्ट रूप से)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.