निरंतर क्लस्टरिंग


9

इसलिए मेरे पास एक मुद्दा है जिसका मैं लाइव, लगातार स्ट्रीमिंग डेटा के साथ क्लस्टरिंग के संबंध में सामना कर रहा हूं। चूँकि मेरे पास एक निरंतर बढ़ता डेटा सेट है, मुझे यकीन नहीं है कि कुशल और प्रभावी क्लस्टरिंग को चलाने का सबसे अच्छा तरीका क्या है। मैं सहित कुछ संभव समाधान के साथ आया हूँ:

  1. कितने डेटा बिंदुओं को अनुमति देने की सीमा निर्धारित की जाती है, इस प्रकार जब भी किसी अन्य डेटा बिंदु के रूप में सीमा पूरी हो जाती है सबसे पुराने बिंदु को हटा दिया जाता है। अनिवार्य रूप से, यह सुझाव देगा कि पुराने डेटा हमारे लिए अभी तक प्रासंगिक नहीं हैं कि देखभाल के लिए हम इसे बाहर फेंककर क्या खो रहे हैं।

  2. एक बार एक अच्छा क्लस्टरिंग करने के लिए पर्याप्त डेटा होने के बाद, इस "सेटअप" पर विचार करें और जैसे ही नए बिंदु आते हैं, सभी डेटा को फिर से क्लस्टर करने के बजाय यह पता लगाएं कि कौन सा क्लस्टर केंद्र नए बिंदु के सबसे करीब है और इसे इसमें जोड़ें। यहां लाभ यह है कि आप हर नए बिंदु पर फिर से क्लस्टर करने से बच सकते हैं और आपको इस क्लस्टर को "अच्छा पर्याप्त" मानते हुए अन्य सभी बिंदुओं को संग्रहीत नहीं करना होगा। नकारात्मक पक्ष यह है कि शुरुआत से सभी डेटा बिंदुओं के साथ एल्गोरिथ्म को फिर से चलाना अधिक सटीक हो सकता है।

जबकि वे कुछ संभावित समाधान हैं जिन्हें मैंने मस्तिष्क-तूफानी किया है, मैं जानना चाहता हूं कि क्या इस समस्या का सामना करने के लिए कोई बेहतर ज्ञात तकनीक है। मुझे लगता है कि Google जैसी साइटों को किसी तरह से निपटना था (और मैं उम्मीद कर रहा हूं कि "अधिक राम, सर्वर और प्रोसेसर जोड़ें" या "लगातार अपने डेटा केंद्रों का विस्तार करें" केवल उपलब्ध उत्तर नहीं हैं)।

जवाबों:


6

ऐसा लगता है कि आप क्लस्टरिंग के लिए ऑनलाइन एल्गोरिदम की तलाश कर रहे हैं ।

मैं Google विद्वान पर "ऑनलाइन क्लस्टरिंग" की खोज करने का सुझाव देता हूं। हो सकता है कि निम्नलिखित लिंक उपयोगी साबित हों (कम से कम शुरुआती बिंदु के रूप में)।


9

स्ट्रीम क्लस्टरिंग पर उचित मात्रा में काम होता है (जो ऑनलाइन तरीकों से थोड़ा अलग है, लेकिन अनिवार्य रूप से आप जो चाहते हैं)। गुहा एट अल द्वारा उपर्युक्त संदर्भ एक बहुत अच्छा है, और किस प्रकार की तकनीकों पर अधिक सामान्य दृष्टिकोण के लिए, और अतीत में कौन से तरीकों का उपयोग किया गया है (दोनों न्यायिक और सटीक), आप मेरे सर्वेक्षण को देखना चाहते हैं। धाराओं पर क्लस्टरिंग पर



4

मुझे ऊपर सुरेश का सर्वेक्षण पसंद है, और स्ट्रीम क्लस्टरिंग में अलग-अलग दृष्टिकोणों को सारांशित करता है। आपने यह नहीं पूछा, लेकिन यह कुछ मामलों में संभव है, समस्या यह है कि वितरित सर्वर द्वारा निरंतर डेटा को देखा जाता है, किसी को केंद्र में एक क्लस्टरिंग बनाए रखना है, और बहुत सारे डेटा को स्थानांतरित नहीं करना है। देखें यहाँ


स्वागत है, मुथु!
सुरेश वेंकट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.