इस तरह के (पुनरावृत्त) -फॉल्ड क्रॉस सत्यापन के दौरान किए गए पुनरावर्तन "नए" डेटा सेट उत्पन्न करते हैं जो कुछ मामलों को हटाकर मूल डेटा सेट से भिन्न होते हैं।k
स्पष्टीकरण और स्पष्टता में आसानी के लिए मैं क्लस्टरिंग बूटस्ट्रैप करूंगा।
सामान्य तौर पर, आप अपने समाधान की स्थिरता को मापने के लिए इस तरह के resampled क्लस्टरिंग का उपयोग कर सकते हैं: क्या यह शायद ही कभी बदलता है या क्या यह पूरी तरह से बदलता है?
यद्यपि आपके पास कोई जमीनी सच्चाई नहीं है, फिर भी आप निश्चित रूप से क्लस्टरिंग की तुलना कर सकते हैं, जो एक ही विधि के अलग-अलग रन (परिणामी) या परिणाम द्वारा अलग-अलग क्लस्टरिंग एल्गोरिदम के परिणामों को सारणीबद्ध कर सकता है:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
चूंकि क्लस्टर नाममात्र के हैं, इसलिए उनका क्रम मनमाने ढंग से बदल सकता है। लेकिन इसका मतलब यह है कि आपको ऑर्डर बदलने की अनुमति है ताकि क्लस्टर्स के अनुरूप हो। फिर विकर्ण * तत्व ऐसे मामलों को गिनते हैं जो एक ही क्लस्टर में दिए जाते हैं और ऑफ-विकर्ण तत्व यह दिखाते हैं कि असाइनमेंट किस तरीके से बदले गए हैं:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
मैं कहता हूं कि प्रत्येक विधि के भीतर आपकी क्लस्टरिंग कितनी स्थिर है यह स्थापित करने के लिए रेज़मैपलिंग अच्छा है। इसके बिना यह अन्य तरीकों से परिणामों की तुलना करने के लिए बहुत अधिक समझ में नहीं आता है।
* यदि गैर-वर्ग मैट्रिसेस के साथ भी काम करता है, तो विभिन्न संख्या में क्लस्टर परिणाम देते हैं। मैं तब तत्वों को संरेखित करूँगा इसलिए पूर्व विकर्ण का अर्थ है। फिर अतिरिक्त पंक्तियों / स्तंभों से पता चलता है कि किस क्लस्टर में नए क्लस्टर को इसके मामले मिले हैं।i,i
आप k- गुना क्रॉस सत्यापन और k- साधन क्लस्टरिंग को नहीं मिला रहे हैं, क्या आप हैं?