मुझे एक काल्पनिक ऑनलाइन क्लस्टरिंग एप्लिकेशन का एक उदाहरण दिखाते हैं:
समय बिंदु पर 1,2,3,4 नीले क्लस्टर ए और अंक बी के लिए आवंटित किए जाते हैं, 5,6,7 लाल क्लस्टर बी को आवंटित किए जाते हैं।
समय n + 1 पर एक नया बिंदु पेश किया जाता है जो नीले क्लस्टर A को सौंपा जाता है, लेकिन साथ ही बिंदु b को नीले क्लस्टर A को भी असाइन किया जाता है।
अंत में अंक 1,2,3,4, ए, बी ए से संबंधित हैं और 5,6,7 से बी तक के अंक मेरे लिए यह उचित प्रतीत होता है।
पहली नज़र में जो सरल लगता है वह वास्तव में थोड़ा मुश्किल है - समय के कदमों के दौरान पहचानकर्ताओं को बनाए रखने के लिए। मुझे और सीमा रेखा उदाहरण के साथ इस बिंदु को स्पष्ट करने का प्रयास करें:
हरे बिंदु के कारण दो नीले और दो लाल बिंदु एक क्लस्टर में विलीन हो जाएंगे, जो मैंने मनमाने ढंग से नीले रंग में रंगने का फैसला किया है - यह पहले से ही काम पर मेरी मानवीय सोच है!
इस निर्णय को करने के लिए एक कंप्यूटर को नियमों का उपयोग करना होगा। उदाहरण के लिए जब बिंदुओं को एक क्लस्टर में मिलाया जाता है तो क्लस्टर की पहचान बहुमत द्वारा निर्धारित की जाती है। इस मामले में हमें एक ड्रा का सामना करना पड़ेगा - नीले और लाल दोनों नए (यहाँ नीले रंग) क्लस्टर के लिए वैध विकल्प हो सकते हैं।
हरे रंग के करीब एक पांचवें लाल बिंदु की कल्पना करें। तब बहुमत लाल (3 लाल बनाम 2 नीला) होगा, इसलिए लाल नए क्लस्टर के लिए एक अच्छा विकल्प होगा - लेकिन यह सही क्लस्टर के लिए लाल के समान स्पष्ट विकल्प का खंडन करेगा क्योंकि वे लाल हो चुके हैं और शायद उसी तरह रहना चाहिए ।
मुझे इस बारे में सोचना गलत लगता है। दिन के अंत में मुझे लगता है कि इसके लिए कोई पूर्ण नियम नहीं हैं - बल्कि कुछ स्थिरता मानदंड का अनुकूलन करने वाले आंकड़े।
यह अंत में मेरे सवालों की ओर जाता है:
- क्या इस "समस्या" का एक नाम है जिसे इसे संदर्भित किया जा सकता है?
- क्या इसके लिए "मानक" समाधान हैं और ...
- ... वहाँ भी शायद एक आर पैकेज है कि के लिए है?