K- साधनों के अभिसरण का प्रमाण


20

असाइनमेंट के लिए मुझे एक सबूत देने के लिए कहा गया है कि k- का मतलब चरणों की एक सीमित संख्या में अभिसरण होता है।

यह वही है जो मैंने लिखा है:

निम्नलिखित में, सभी क्लस्टर केंद्रों का एक संग्रह है। एक "ऊर्जा" फ़ंक्शन को परिभाषित करें ऊर्जा फ़ंक्शन nonnegative है। हम देखते हैं कि एल्गोरिथम के चरण (2) और (3) दोनों ऊर्जा को कम करते हैं। चूंकि ऊर्जा नीचे से बंधी हुई है और लगातार कम हो रही है इसलिए इसे स्थानीय न्यूनतम में परिवर्तित करना होगा। जब एक निश्चित सीमा से कम दर पर E (C) परिवर्तित होता है तो Iteration को रोका जा सकता है।सी

(सी)=Σएक्समिनटमैं=1एक्स-सीमैं2
(सी)

चरण 2 उस चरण को संदर्भित करता है जो प्रत्येक डेटा बिंदु को उसके निकटतम क्लस्टर केंद्र द्वारा लेबल करता है, और चरण 3 वह चरण है जहां केंद्रों को एक माध्य लेकर अपडेट किया जाता है।

यह सीमित चरणों में अभिसरण सिद्ध करने के लिए पर्याप्त नहीं है। ऊर्जा छोटी हो सकती है, लेकिन यह इस संभावना से इंकार नहीं करता है कि केंद्र बिंदु ऊर्जा को ज्यादा बदले बिना कूद सकते हैं। दूसरे शब्दों में, कई ऊर्जा मिनिमा हो सकती हैं और एल्गोरिथ्म उनके बीच कूद सकता है, नहीं?


5
संकेत: केंद्र बिंदुओं के कितने संभावित संग्रह हो सकते हैं?
whuber

जवाबों:


35

सबसे पहले, वहाँ ज्यादा से ज्यादा कर रहे हैं विभाजन करने के लिए तरीके में डेटा बिंदुओं समूहों; इस तरह के प्रत्येक विभाजन को "क्लस्टरिंग" कहा जा सकता है। यह एक बड़ी लेकिन परिमित संख्या है। एल्गोरिथ्म के प्रत्येक पुनरावृत्ति के लिए, हम केवल पुराने क्लस्टरिंग के आधार पर एक नया क्लस्टरिंग का उत्पादन करते हैं । नोटिस जोkNNk

  1. यदि पुरानी क्लस्टरिंग नई के समान है, तो अगली क्लस्टरिंग फिर से वही होगी।
  2. यदि नई क्लस्टरिंग पुरानी से अलग है तो नए की लागत कम है

चूंकि एल्गोरिथ्म एक फ़ंक्शन को पुन: प्रसारित करता है जिसका डोमेन एक परिमित सेट है, पुनरावृत्ति को अंततः एक चक्र में प्रवेश करना चाहिए। चक्र की लंबाई से अधिक नहीं हो सकती है, क्योंकि अन्यथा (2) आपके पास कुछ क्लस्टरिंग होंगे जिनकी लागत स्वयं की तुलना में कम है जो असंभव है। इसलिए चक्र की लंबाई बिल्कुल होनी चाहिए । इसलिए k- साधन पुनरावृत्तियों की एक सीमित संख्या में परिवर्तित होता है।11


आदेश क्यों मायने रखता है? है यही कारण है कि, हम क्यों नहीं है चुनें clusterings? N
rrrrr

@rrrr सही सूत्र जहां एक दूसरी तरह की स्टर्लिंग संख्या है । इससे कोई फर्क नहीं पड़ता क्योंकि मैंने ज्यादातर पर कहा था{nk}{nk} kएन
19

6

कुछ जोड़ने के लिए: एल्गोरिथ्म अभिसरण करता है या नहीं यह भी आपके स्टॉप मानदंड पर निर्भर करता है। यदि आप क्लस्टर असाइनमेंट को बंद करने के बाद किसी भी अधिक परिवर्तन नहीं करते हैं, तो आप एल्गोरिथ्म को रोक सकते हैं, तो आप वास्तव में यह साबित कर सकते हैं कि एल्गोरिथ्म जरूरी रूप से परिवर्तित नहीं होता है (बशर्ते कि क्लस्टर असाइनमेंट में नियतात्मक टाई ब्रेकर नहीं है, तो कई सेंट्रोइड्स की समान दूरी है)।

यहाँ छवि विवरण दर्ज करें

यहां आपके पास 8 डेटा-पॉइंट (डॉट्स) और दो सेंट्रोइड्स (रेड क्रॉस) हैं। अब ग्रीन-डेटा बिंदुओं में बाएं और दाएं दोनों केंद्रों के लिए समान दूरी है। ब्लू डेटा-पॉइंट्स के लिए भी यही है। आइए हम मान लें कि असाइनमेंट फ़ंक्शन इस मामले में नियतात्मक नहीं है। इसके अलावा, हम मानते हैं कि 1 पुनरावृत्ति पर हरे रंग के डॉट्स बाएं क्लस्टर को असाइन किए जाते हैं और नीले डॉट्स सही क्लस्टर को असाइन किए जाते हैं। फिर हम केन्द्रक को अद्यतन करते हैं। यह पता चला है कि वे वास्तव में एक ही स्थान पर रहते हैं। (यह एक आसान गणना है। बाएं सेंट्रोइड के लिए आप दो बाएं ब्लैक डॉट्स और दो ग्रीन डॉट्स -> (0, 0.5) के निर्देशांक को औसत करते हैं। दाहिने सेंट्रोइड के लिए भी।)

फिर पुनरावृत्ति 2 पर स्थिति फिर से वही दिखती है, लेकिन अब हम मानते हैं कि हमारे (संबंधों के मामले में) गैर-नियतात्मक असाइनमेंट फ़ंक्शन दाएं क्लस्टर को हरा डॉट्स और बाएं डॉट्स को नीले डॉट्स असाइन करता है। फिर से केन्द्रक नहीं बदलेगा।

Iteration 3 फिर से पुनरावृत्ति के समान है। इस प्रकार हमारे पास एक ऐसा मामला है जहां क्लस्टर असाइनमेंट लगातार बदलते रहते हैं और एल्गोरिथ्म (इस स्टॉप मानदंड के साथ) अभिसरण नहीं करते हैं।

अनिवार्य रूप से हम केवल एक गारंटी नहीं है कि कश्मीर-साधन में हर कदम लागत कम कर देता है या यह एक ही रहता है (यानी है बजाय )। इसने मुझे एक ऐसे मामले का निर्माण करने की अनुमति दी जहां लागत पुनरावृत्तियों के माध्यम से समान रहती है, भले ही असाइनमेंट अभी भी बदलता है।<

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.