अंतराल आँकड़ा ऐसा करने का एक शानदार तरीका है; तिब्शीरानी, हस्ती और वाल्थर (2001)।
http://stat.ethz.ch/R-manual/R-devel/library/cluster/html/clusGap.html - प्रासंगिक R पैकेज।
यह विचार है कि यह K = 1,2,3, ... यादृच्छिक शोर के एक शून्य परिकल्पना के लिए आपके डेटा को क्लस्टर करने की एक अनुक्रमिक परिकल्पना परीक्षण करता है, जो एक क्लस्टर के बराबर है। इसकी विशेष ताकत यह है कि यह आपको K = 1 का एक विश्वसनीय संकेत देता है, अर्थात क्या कोई क्लस्टर नहीं हैं।
यहाँ एक उदाहरण है, मैं कुछ दिन पहले कुछ खगोल विज्ञान के आंकड़ों का निरीक्षण कर रहा था जैसा कि होता है - अर्थात् एक पारगमन एक्सोप्लैनेट सर्वेक्षण से। मैं जानना चाहता था कि (उत्तल) समूहों के लिए क्या साक्ष्य हैं। मेरा डेटा 'पारगमन' है
library(cluster)
cgap <- clusGap(transit, FUN=kmeans, K.max=kmax, B=100)
for(k in 1:(kmax-1)) {
if(cgap$Tab[k,3]>cgap$Tab[(k+1),3]-cgap$Tab[(k+1),4]) {print(k)};
break;
}
गैप स्टैटिस्टिक के साथ आप K के पहले मान की तलाश कर रहे हैं, जहाँ टेस्ट 'फेल' है, यानी गैप स्टैटिस्टिक में काफी गिरावट है। ऊपर दिए गए लूप में इस तरह की एकक छपेगी, हालाँकि बस cgap की साजिश रचने से आपको निम्नलिखित आंकड़ा मिलता है:
देखें कि कैसे G = 1 से k = 2 तक गैप में एक महत्वपूर्ण डुबकी है, जो दर्शाता है कि वास्तव में कोई क्लस्टर (अर्थात 1 क्लस्टर) नहीं हैं।