मुझे लगता है कि मुझे किमीवार क्लस्टरिंग के लिए अपना जवाब मिल गया है:
Git source कोड को देखकर, मैंने पाया कि scikit सीखने के लिए, जड़ता की गणना प्रत्येक बिंदु के निकटतम वर्ग की दूरी के योग के रूप में की जाती है, जो कि उसके निकटतम क्लस्टर है। इसलिएमैं=Σमैं( d)( i , c r ) ) कहाँ पे सी। आर असाइन किए गए क्लस्टर का केंद्रक है और घ वर्ग दूरी है।
अब गैप स्टैटिस्टिक का फॉर्मूला शामिल है
डब्ल्यूक=Σआर = १क1( २ ∗)nआर)डीआर
कहाँ पे
डीआर क्लस्टर में सभी बिंदुओं के बीच वर्ग दूरी का योग है
आर।
परिचय देने से + सी, - सी वर्ग दूरी के सूत्र में (सी क्लस्टर का केन्द्रक है r निर्देशांक), मेरे पास एक शब्द है जो कि जड़ता से मिलता-जुलता है (जैसा कि scitit में) + एक शब्द जो गायब हो जाता है यदि प्रत्येक cप्रत्येक क्लस्टर का बैरियर है (जो कि किमी में होना चाहिए)। तो मुझे लगता हैWk वास्तव में जड़ता जड़ता है।
मेरे पास अभी भी दो प्रश्न हैं:
- क्या आपको लगता है कि मेरा पथरी सही है? (उदाहरण के लिए, मुझे नहीं पता कि यह पदानुक्रमिक क्लस्टरिंग के लिए है।)
- अगर मैं ऊपर सही हूं, तो मैंने अंतर सांख्यिकीय (अनुमान और क्लस्टरिंग के बीच लॉग इनर्टिस के अंतर के रूप में) को कोडित किया है और यह विशेष रूप से आईरिस डेटासेट पर बुरी तरह से प्रदर्शन करता है, क्या किसी ने कोशिश की है?