विशेष रूप से के-साधनों के बारे में, आप गैप आँकड़ों का उपयोग कर सकते हैं। मूल रूप से, विचार समूहों की बढ़ती संख्या के लिए संदर्भ वितरण की तुलना में औसत फैलाव के आधार पर क्लस्टरिंग माप की अच्छाई की गणना करना है। अधिक जानकारी के मूल कागज में पाया जा सकता है:
टिबशिरानी, आर।, वाल्थर, जी।, और हस्ती, टी। (2001)। अंतर आंकड़े के माध्यम से निर्धारित आंकड़ों में समूहों की संख्या का अनुमान लगाना । जेआर स्टेटिस्ट। समाज। बी, 63 (2): 411-423।
एक संबंधित प्रश्न के लिए मैंने जो उत्तर दिया, वह अन्य सामान्य वैधता सूचकांकों पर प्रकाश डालता है, जिनका उपयोग यह जांचने के लिए किया जा सकता है कि क्या दिया गया डेटासेट किसी प्रकार की संरचना प्रदर्शित करता है।
जब आपको इस बात का कोई अंदाजा नहीं होता है कि आप केवल शोर होने पर क्या खोजने की उम्मीद करेंगे, तो एक अच्छा तरीका है कि आप रेज़मैपलिंग का उपयोग करें और क्लस्टर स्थिरता का अध्ययन करें। दूसरे शब्दों में, अपने डेटा को पुनः आरंभ करें (बूटस्ट्रैप के माध्यम से या इसमें छोटे शोर को जोड़कर) और परिणामस्वरूप विभाजन की "निकटता" की गणना करें, जैसा कि जैकार्ड समानताएं द्वारा मापा गया है । संक्षेप में, यह उस आवृत्ति का अनुमान लगाने की अनुमति देता है जिसके साथ डेटा में समान क्लस्टर प्राप्त किए गए थे। यह विधि fpc R पैकेज में आसानी से उपलब्ध है clusterboot()
। यह कच्चे डेटा या एक दूरी मैट्रिक्स के रूप में इनपुट के रूप में लेता है, और क्लस्टरिंग विधियों (पदानुक्रमित, k- साधन, फ़ज़ी तरीके) की एक विस्तृत श्रृंखला को लागू करने की अनुमति देता है। इस विधि से जुड़े संदर्भों में चर्चा की गई है:
हेनिग, सी। (2007) क्लस्टर-स्थिरता का क्लस्टर-वार मूल्यांकन ।
कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण , 52, 258-271।
हेनिग, सी। (2008) विघटन बिंदु और अलगाव मजबूती: सामान्य क्लस्टर विश्लेषण विधियों के लिए मजबूती मानदंड । बहुभिन्नरूपी विश्लेषण जर्नल , 99, 1154-1176।
नीचे k- साधन एल्गोरिथ्म के साथ एक छोटा प्रदर्शन है।
sim.xy <- function(n, mean, sd) cbind(rnorm(n, mean[1], sd[1]),
rnorm(n, mean[2],sd[2]))
xy <- rbind(sim.xy(100, c(0,0), c(.2,.2)),
sim.xy(100, c(2.5,0), c(.4,.2)),
sim.xy(100, c(1.25,.5), c(.3,.2)))
library(fpc)
km.boot <- clusterboot(xy, B=20, bootmethod="boot",
clustermethod=kmeansCBI,
krange=3, seed=15555)
इस कृत्रिम (और अच्छी तरह से संरचित) डेटासेट में परिणाम काफी सकारात्मक हैं क्योंकि तीन समूहों में से कोई भी krange
नमूने में भंग नहीं किया गया था, और सभी क्लस्टर के लिए औसत क्लस्टरवाइज जैकार्ड समानता> 0.95 है।
नीचे 20 बूटस्ट्रैप नमूनों पर परिणाम दिए गए हैं। जैसा कि देखा जा सकता है, सांख्यिकीय इकाइयां एक ही क्लस्टर में समूहीकृत रहने की प्रवृत्ति रखती हैं, उन टिप्पणियों के बीच कुछ अपवाद हैं।
आप इस विचार को किसी भी वैधता सूचकांक में विस्तारित कर सकते हैं: निश्चित रूप से: बूटस्ट्रैप (प्रतिस्थापन के साथ) द्वारा टिप्पणियों की एक नई श्रृंखला चुनें, अपनी सांख्यिकी (जैसे, सिल्हूट चौड़ाई, मैथुन संबंधी सहसंबंध, ह्यूबर्ट की गामा, वर्गों की राशि के भीतर) की एक सीमा के लिए गणना करें क्लस्टर संख्या (जैसे, 2 से 10), 100 या 500 बार दोहराएं, और क्लस्टर की संख्या के एक फ़ंक्शन के रूप में अपने आंकड़े के बॉक्सप्लेट को देखें।
यहाँ मैं एक ही सिम्युलेटेड डेटासेट के साथ मिलता हूं, लेकिन वार्ड के पदानुक्रमित क्लस्टरिंग का उपयोग करते हुए और कोपेनहेनेटिक सहसंबंध (जिसके परिणामस्वरूप विभाजन में कितनी अच्छी तरह से दूरी की जानकारी पुन: पेश की जाती है) और सिल्हूट चौड़ाई (अंतर-क्लस्टर समरूपता का आकलन करने वाला संयोजन) और अंतर- क्लस्टर जुदाई)।
मैथुन संबंधी सहसंबंध 0.2631 (500 बूटस्ट्रैप नमूनों) के औसत मूल्य के साथ 0.6267 से 0.7511 तक है। सिल्हूट की चौड़ाई अधिकतम दिखाई देती है जब हम 3 समूहों (मध्य 0.8408, सीमा 0.7371-0.8769) पर विचार करते हैं।