मैं 10-आयामी बिंदुओं के समूह पर k-mean clustering कर रहा हूं। पकड़: 10 ^ 10 अंक हैं ।
मैं सबसे बड़े समूहों के केंद्र और आकार की तलाश कर रहा हूं (मान लीजिए 10 से 100 क्लस्टर हैं); मुझे इस बात की परवाह नहीं है कि प्रत्येक बिंदु किस क्लस्टर में समाप्त होता है। k- साधनों का उपयोग करना विशेष रूप से महत्वपूर्ण नहीं है; मैं बस एक समान प्रभाव की तलाश कर रहा हूं, कोई भी अनुमानित k- साधन या संबंधित एल्गोरिथ्म महान होगा (मिनीबैच-डब्ल्यूडब्ल्यू का मतलब है, ...)। चूँकि GMM एक तरह से k- साधनों के समान समस्या है, इसलिए समान आकार के डेटा पर GMM करना भी दिलचस्प है।
इस पैमाने पर, डेटा को सबमप्लिमेंट करने से परिणाम में महत्वपूर्ण बदलाव नहीं होता है: डेटा के 1/10000 वें नमूने का उपयोग करके समान शीर्ष 10 क्लस्टर खोजने की संभावना बहुत अच्छी है। लेकिन फिर भी, यह एक 10 ^ 6 बिंदु समस्या है जो कि ट्रैकेबल के किनारे पर / परे है।