एक k- साधन क्लस्टर विभाजन में सबसे महत्वपूर्ण सुविधाओं का अनुमान है


19

क्या यह निर्धारित करने का कोई तरीका है कि के-साधन क्लस्टर समाधान के भीतर डेटासेट की कौन सी विशेषताएं / चर सबसे महत्वपूर्ण / प्रभावी हैं?


1
आप "महत्वपूर्ण / प्रमुख" कैसे परिभाषित करते हैं? क्या आप समूहों के बीच भेदभाव करने के लिए सबसे उपयोगी हैं?
फ्रेंक डर्नोनकोर्ट

3
हाँ सबसे उपयोगी है कि मैं क्या मतलब है। मुझे लगता है कि मेरी समस्या का एक हिस्सा यह पता लगाने के साथ है कि यह कैसे शब्द है।
user1624577

स्पष्टीकरण के लिए धन्यवाद। मशीन लर्निंग में इस मुद्दे को नामित करने के लिए एक सामान्य शब्द है सुविधा चयन
फ्रेंक डर्नोनकोर्ट

जवाबों:


8

पुस्तक बर्न्स, रॉबर्ट पी। और रिचर्ड बर्न्स की ओर से प्रत्येक सुविधा (= चर = आयाम) की उपयोगिता को निर्धारित करने का एक तरीका है एसपीएसएस का उपयोग करके व्यावसायिक अनुसंधान के तरीके और आंकड़े। ऋषि, 2008. ( दर्पण ), क्लस्टर को बताने के लिए सुविधाओं की भेदभावपूर्ण शक्ति द्वारा परिभाषित की जा रही उपयोगिता।

हम आमतौर पर प्रत्येक क्लस्टर पर प्रत्येक क्लस्टर के साधनों की जांच करते हैं ताकि यह आकलन किया जा सके कि हमारे क्लस्टर कितने अलग हैं। आदर्श रूप में, हम विश्लेषण के लिए उपयोग किए जाने वाले सभी आयामों के लिए, यदि नहीं तो सभी के लिए अलग-अलग साधन प्राप्त करेंगे। प्रत्येक आयाम पर किए गए F मानों का परिमाण इस बात का संकेत है कि संबंधित आयाम समूहों के बीच कितना अच्छा भेदभाव करता है।

एक अन्य तरीका एक विशिष्ट सुविधा को हटाने और यह देखने के लिए होगा कि यह आंतरिक गुणवत्ता सूचकांकों को कैसे प्रभावित करता है । पहले समाधान के विपरीत, आपको प्रत्येक विशेषता (या सुविधाओं के सेट) के लिए क्लस्टरिंग को फिर से करना होगा जिसे आप विश्लेषण करना चाहते हैं।

जानकारी के लिए:


4
यह जोड़ना बहुत महत्वपूर्ण है कि इस संदर्भ में किसी को उन एफ (या पी) मूल्यों को सांख्यिकीय महत्व के संकेतक (यानी जनसंख्या के सापेक्ष) के रूप में नहीं लेना चाहिए , बल्कि केवल मतभेदों के परिमाण के संकेतक के रूप में लेना चाहिए।
tnnphns

3

मैं दो अन्य संभावनाओं के बारे में सोच सकता हूं जो अधिक ध्यान केंद्रित करते हैं कि कौन से चर किन समूहों के लिए महत्वपूर्ण हैं।

  1. बहु-श्रेणी वर्गीकरण। उन वस्तुओं पर विचार करें जो एक ही वर्ग (जैसे, कक्षा 1) के क्लस्टर एक्स सदस्यों से संबंधित हैं और दूसरी कक्षा के अन्य समूहों के सदस्यों से संबंधित वस्तुओं (जैसे, कक्षा 2)। कक्षा की सदस्यता की भविष्यवाणी करने के लिए एक क्लासिफायर ट्रेन करें (जैसे, कक्षा 1 बनाम कक्षा 2)। क्लासिफायर का चर गुणांक क्लस्टर x के लिए ऑब्जेक्ट को क्लस्टर करने में प्रत्येक चर के महत्व का अनुमान लगाने के लिए सेवा कर सकता है । अन्य सभी समूहों के लिए इस दृष्टिकोण को दोहराएं।

  2. इंट्रा-क्लस्टर चर समानता। प्रत्येक चर के लिए, प्रत्येक वस्तु की औसत समानता की गणना उसके केन्द्रक पर करें। एक चर जिसमें एक केन्द्रक और उसकी वस्तुओं के बीच उच्च समानता है, एक चर की तुलना में क्लस्टरिंग प्रक्रिया के लिए अधिक महत्वपूर्ण है जिसमें कम समानता है। बेशक, समानता परिमाण सापेक्ष है, लेकिन अब चर को उस डिग्री से रैंक किया जा सकता है, जहां वे प्रत्येक क्लस्टर में वस्तुओं को क्लस्टर करने में मदद करते हैं।


0

यहाँ एक बहुत ही सरल विधि है। ध्यान दें कि दो क्लस्टर केंद्रों के बीच यूक्लिडियन दूरी व्यक्तिगत विशेषताओं के बीच वर्ग अंतर का एक योग है। हम तब प्रत्येक सुविधा के लिए वजन के रूप में वर्ग अंतर का उपयोग कर सकते हैं।

यूक्लिडियन दूरी

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.