एक आयामी डेटा में, क्लस्टर विश्लेषण का उपयोग न करें।
क्लस्टर विश्लेषण आमतौर पर एक बहुभिन्नरूपी तकनीक है। या मुझे बेहतर तरीके से इसे दूसरे तरीके से रखने दें: एक आयामी डेटा के लिए - जो पूरी तरह से आदेश दिया गया है - बहुत बेहतर तकनीकें हैं। जब तक आप वास्तव में 1-d मामले के लिए उन्हें अनुकूलित करने के लिए पर्याप्त प्रयास नहीं करते हैं, तब तक k- साधन और इसी तरह की तकनीकों का उपयोग करना यहाँ एक कुल बेकार है।
बस आपको एक उदाहरण देने के लिए: k- साधनों के लिए प्रारंभिक बीज के रूप में k यादृच्छिक वस्तुओं का उपयोग करना आम है। एक आयामी डेटा के लिए, केवल एक बार डेटा को सॉर्ट करने के बाद, उचित मात्राओं (1 / 2k, 3 / 2k, 5 / 2k आदि) का उपयोग करके बेहतर करना आसान है , और फिर इस शुरुआती बिंदु से अनुकूलन करें। हालाँकि, 2D डेटा को पूरी तरह से सॉर्ट नहीं किया जा सकता है। और एक ग्रिड में, खाली कोशिकाओं की संभावना होगी।
मैं इसे क्लस्टर भी नहीं कहूंगा। मैं इसे अंतराल कहूंगा । आप वास्तव में क्या करना चाहते हैं, अंतराल सीमाओं को अनुकूलित करना है। यदि आप k-mean करते हैं, तो यह प्रत्येक ऑब्जेक्ट के लिए परीक्षण करेगा यदि इसे किसी अन्य क्लस्टर में स्थानांतरित किया जाना चाहिए। 1 डी में इसका कोई मतलब नहीं है: केवल अंतराल सीमाओं पर वस्तुओं को जांचने की आवश्यकता है। यह स्पष्ट रूप से बहुत तेज है, क्योंकि वहां केवल ~ 2k वस्तुएं हैं। यदि वे पहले से ही अन्य अंतराल पसंद नहीं करते हैं, तो अधिक केंद्रीय वस्तुएं भी नहीं होंगी।
आप उदाहरण के लिए जेनक्स नेचुरल ब्रेक्स ऑप्टिमाइज़ेशन जैसी तकनीकों पर गौर करना चाहते हैं ।
या आप कर्नेल घनत्व का आकलन कर सकते हैं और वहां विभाजित होने के लिए घनत्व की स्थानीय मिनीमा की तलाश कर सकते हैं। अच्छी बात यह है कि इसके लिए आपको k निर्दिष्ट करने की आवश्यकता नहीं है!
PS कृपया खोज फ़ंक्शन का उपयोग करें। यहाँ 1-d डेटा क्लस्टरिंग पर कुछ प्रश्न दिए गए हैं जो आप चूक गए हैं: