मेरे द्वारा उपयोग की जाने वाली विधि CCC (क्यूबिक क्लस्टरिंग क्राइटेरिया) का उपयोग करना है। मैं CCC को अधिकतम करने के लिए बढ़ाता हूं क्योंकि मैं 1 से समूहों की संख्या बढ़ाता हूं, और फिर निरीक्षण करता हूं कि CCC कम होने लगती है। उस समय मैं अधिकतम (स्थानीय) समूहों की संख्या लेता हूं। यह मुख्य घटकों की संख्या को चुनने के लिए एक स्कोरी प्लॉट का उपयोग करने के समान होगा।
SAS तकनीकी रिपोर्ट A-108 घन क्लस्टरिंग मानदंड ( पीडीएफ )
= अवलोकन की संख्या n k = क्लस्टर k p में संख्या = चर की संख्या q = समूहों की संख्या X = n × p डेटा मैट्रिक्स M = q × p क्लस्टर का मैट्रिक्स का अर्थ है Z = क्लस्टर सूचक ( z i k = 1 यदि अवलोकन हो तो , मैं क्लस्टर k में , 0 अन्यथा) n
nkk
p
q
Xn×p
Mq×p
Zzik=1ik
: मान लीजिए प्रत्येक चर मतलब 0 है
, एम = ( जेड ' जेड ) - 1 जेड ' एक्सZ′Z=diag(n1,⋯,nq)M=(Z′Z)−1Z′X
(कुल) मैट्रिक्स = टी = एक्स ' एक्स एस एस (समूहों के बीच) मैट्रिक्स = बी = एम ' जेड ' जेड एम एस एस (समूहों के भीतर) मैट्रिक्स = डब्ल्यू = टी - बीSSTX′X
SSBM′Z′ZM
SSWT−B
(ट्रेस = विकर्ण तत्वों का योग)R2=1–trace(W)trace(T)
एक लंबे कॉलम में स्टैक स्तंभ।
पर वापसी क्रोनेकर उत्पाद की जेड के साथ पी × पी पहचान मैट्रिक्स
कंप्यूट आर 2 इस प्रतिगमन के लिए - एक ही आर 2X
Zp×p
R2R2
सीसीसी विचार तुलना करने के लिए है आप के साथ समूहों के एक सेट के लिए मिल आर 2 आप में अंक की एक समान रूप से वितरित सेट क्लस्टरिंग द्वारा मिलेगा पी आयामी अंतरिक्ष।R2R2p