ककके = २
हालांकि, कई वास्तविक दुनिया के डेटासेट में, गुच्छों को अच्छी तरह से परिभाषित नहीं किया गया है, और हम मॉडल के पार्सिमनी के साथ अंतर सांख्यिकीय को अधिकतम करने में सक्षम होना चाहते हैं। बिंदु में मामला: ओपी की पहली छवि। यदि हम अंतर को अधिकतम आंक रहे हैं , तो हमें 30 (या इससे भी अधिक) समूहों वाले मॉडल का चयन करना चाहिए। यह मानते हुए कि वह प्लॉट अभी जारी है, निश्चित रूप से, परिणाम कम उपयोगी हैं। तो तिब्शीरानी 1-मानक-त्रुटि विधि का सुझाव देती है :
क^कगैप ( के ) ap गैप ( के + 1 ) - एसके + १
जो अनौपचारिक रूप से उस बिंदु की पहचान कर रहा है जिस पर अंतर सांख्यिकीय की वृद्धि की दर "धीमा" होने लगती है।
क
ओपी की दूसरी छवि के लिए, हालांकि, आप देखेंगे कि लिए अंतराल आँकड़ा तुरंत घट जाता हैक > १क1
कclusGap
कfirstSEmax
के = ३०के = 19
स्रोत: रॉबर्ट टिबशिरानी, गुएंथर वाल्थर, और ट्रेवर हस्ती (2001)। अंतर आँकड़ा के माध्यम से निर्धारित आंकड़ों में समूहों की संख्या का अनुमान लगाना।