K- साधन क्लस्टरिंग में समूहों की संख्या को कैसे परिभाषित करें?


19

क्या इष्टतम क्लस्टर संख्या निर्धारित करने का कोई तरीका है या क्या मुझे विभिन्न मूल्यों की कोशिश करनी चाहिए और सर्वोत्तम मूल्य तय करने के लिए त्रुटि दर की जांच करनी चाहिए?


1
@berkay आप इस असुरक्षित विधि के लिए त्रुटि दर कैसे निर्धारित करते हैं? (या आप एसएस के भीतर मतलब है?)
chl

@chl, मैं सभी समूहों या समग्र सटीकता के लिए चुकता त्रुटियों का योग का उपयोग कर सकता हूं (इस मामले में मुझे कक्षा के लेबल पता हैं।)
berkay

3
@berkay नंबर समूहों को खोजने के लिए एक सरल एल्गोरिथ्म है क्लस्टर की बढ़ती संख्या पर के-साधनों के 20 रन के लिए औसत WSS की गणना करना (2 के साथ शुरू, और 9 या 10 के साथ समाप्त होना), और उस समाधान को रखें इस समूह में न्यूनतम WSS सेट। एक अन्य विधि गैप आँकड़ा है । लेकिन अगर आपके पास पहले से ही इंस्टेंस के लेबल हैं, तो आप एक असुरक्षित पद्धति की कोशिश क्यों कर रहे हैं?
chl

@ धन्यवाद, अच्छा सवाल, हम अनुमानों की विशेषताओं के आधार पर अनुमान लगा सकते हैं, मैं नई घुसपैठ विशेषताओं का विश्लेषण कर रहा हूं, कानूनी अनुप्रयोगों की नकल कर रहा हूं।
बर्काय

2
मैंने Rयहाँ पर आधा दर्जन तरीकों (उपयोग करके ) के साथ एक समान क्यू का उत्तर दिया है: stackoverflow.com/a/15376462/1036500
बेन

जवाबों:


8

मेरे द्वारा उपयोग की जाने वाली विधि CCC (क्यूबिक क्लस्टरिंग क्राइटेरिया) का उपयोग करना है। मैं CCC को अधिकतम करने के लिए बढ़ाता हूं क्योंकि मैं 1 से समूहों की संख्या बढ़ाता हूं, और फिर निरीक्षण करता हूं कि CCC कम होने लगती है। उस समय मैं अधिकतम (स्थानीय) समूहों की संख्या लेता हूं। यह मुख्य घटकों की संख्या को चुनने के लिए एक स्कोरी प्लॉट का उपयोग करने के समान होगा।


SAS तकनीकी रिपोर्ट A-108 घन क्लस्टरिंग मानदंड ( पीडीएफ )

= अवलोकन की संख्या n k = क्लस्टर k p में संख्या = चर की संख्या q = समूहों की संख्या X = n × p डेटा मैट्रिक्स M = q × p क्लस्टर का मैट्रिक्स का अर्थ है Z = क्लस्टर सूचक ( z i k = 1 यदि अवलोकन हो तो , मैं क्लस्टर k में , 0 अन्यथा) n
nkk
p
q
Xn×p
Mq×p
Zzik=1ik

: मान लीजिए प्रत्येक चर मतलब 0 है
, एम = ( जेड ' जेड ) - 1 जेड ' एक्सZZ=diag(n1,,nq)M=(ZZ)1ZX

(कुल) मैट्रिक्स = टी = एक्स ' एक्स एस एस (समूहों के बीच) मैट्रिक्स = बी = एम ' जेड ' जेड एम एस एस (समूहों के भीतर) मैट्रिक्स = डब्ल्यू = टी - बीSSTXX
SSBMZZM
SSWTB

(ट्रेस = विकर्ण तत्वों का योग)R2=1trace(W)trace(T)

एक लंबे कॉलम में स्टैक स्तंभ। पर वापसी क्रोनेकर उत्पाद की जेड के साथ पी × पी पहचान मैट्रिक्स कंप्यूट आर 2 इस प्रतिगमन के लिए - एक ही आर 2X
Zp×p
R2R2

सीसीसी विचार तुलना करने के लिए है आप के साथ समूहों के एक सेट के लिए मिल आर 2 आप में अंक की एक समान रूप से वितरित सेट क्लस्टरिंग द्वारा मिलेगा पी आयामी अंतरिक्ष।R2R2p


2
सीसीसी के अलावा अन्य मापदंड भी हैं। मुख्य डेटा को देखने के लिए, डेटा सेट में क्लस्टर की संख्या निर्धारित करने पर एक नज़र डालें ।
विंसेंट लाबटूट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.