अपने डेटा में "सर्वश्रेष्ठ" संख्याओं का चयन कैसे करें, जो भी क्लस्टरिंग विधि आप उपयोग करते हैं, उसके बारे में एक स्पष्ट-कट समाधान प्रदान करना मुश्किल है, क्योंकि क्लस्टर विश्लेषण सांख्यिकीय इकाइयों के समूहों को अलग करना चाहता है (चाहे वह व्यक्ति हो या चर) ) अनिवार्य रूप से खोजपूर्ण या वर्णनात्मक उद्देश्य के लिए। इसलिए, आपको अपनी क्लस्टरिंग स्कीम के आउटपुट की व्याख्या करनी होगी और कई क्लस्टर समाधान समान रूप से दिलचस्प हो सकते हैं।
अब, सामान्य सांख्यिकीय मानदंड के बारे में निर्णय लेते थे, जब एकत्रित डेटा को रोकने के लिए इस्तेमाल किया जाता था, जैसा कि @ars द्वारा बताया गया है कि दृश्य-निर्देशित मानदंड हैं , जिसमें डेंड्रोग्राम का विश्लेषण या क्लस्टर प्रोफाइल का निरीक्षण भी शामिल है, जिसे सिल्हूट प्लॉट्स (रूसेवु, 1987) भी कहा जाता है। । कई संख्यात्मक मानदंड , जिन्हें वैधता सूचक के रूप में भी जाना जाता है, का भी प्रस्ताव किया गया था, उदाहरण के लिए डन की वैधता सूचकांक, डेविस-बोल्डिन वैध- इत्यादि सूचकांक, सी इंडेक्स, ह्यूबर्ट की गामा, कुछ का नाम। पदानुक्रमित क्लस्टरिंग अक्सर k-mean (वास्तव में, k- साधन के कई उदाहरण हैं क्योंकि यह स्टोकेस्टिक एल्गोरिथ्म है) के साथ एक साथ चलाया जाता है, ताकि यह पाए जाने वाले क्लस्टरिंग समाधानों में समर्थन जोड़ दे। मुझे नहीं पता कि यह सब सामान पाइथन में आसानी से उपलब्ध है, लेकिन R में बहुत सारी विधियाँ उपलब्ध हैं (देखेंक्लस्टर कार्य दृश्य, पहले से ही संबंधित प्रश्न के लिए @mbq द्वारा उद्धृत किया गया है, मूवी उपकरण पर क्लस्टरिंग एल्गोरिदम को लागू करने के लिए कौन से टूल का उपयोग किया जा सकता है? )। अन्य दृष्टिकोणों में फ़ज़ी क्लस्टरिंग और मॉडल-आधारित क्लस्टरिंग ( साइकोमेट्रिक समुदाय में अव्यक्त विशेषता विश्लेषण भी कहा जाता है) शामिल हैं, यदि आप अपने डेटा में क्लस्टर की संख्या चुनने के लिए अधिक मजबूत तरीका तलाशते हैं।
BTW, मैं अभी-अभी इस वेबपेज पर आया हूं, स्किपी-क्लस्टर , जो पदानुक्रमिक समूहों का निर्माण, दृश्य और विश्लेषण करने के लिए Scipy का विस्तार है । हो सकता है कि इसमें अन्य कार्य शामिल हों? मैंने PyChem के बारे में भी सुना है जो बहुभिन्नरूपी विश्लेषण के लिए बहुत अच्छा सामान प्रदान करता है।
निम्नलिखित संदर्भ भी सहायक हो सकते हैं:
स्टेनली, डी।, और ब्रुस्को, एमजे (2008)। क्लस्टर विश्लेषण में चर का चयन: आठ प्रक्रियाओं की एक अनुभवजन्य तुलना। साइकोमेट्रिका , 73 , 125-144।