क्या आप क्रॉस-वेलिडेशन द्वारा कोई जमीनी सच्चाई वाले डेटासेट पर विभिन्न क्लस्टरिंग विधियों की तुलना कर सकते हैं?


12

वर्तमान में, मैं एक टेक्स्ट डॉक्यूमेंट डेटासेट का विश्लेषण करने की कोशिश कर रहा हूँ जिसमें कोई जमीनी सच्चाई नहीं है। मुझे बताया गया था कि आप अलग-अलग क्लस्टरिंग विधियों की तुलना करने के लिए k-fold क्रॉस सत्यापन का उपयोग कर सकते हैं। हालाँकि, मैंने पिछले दिनों जो उदाहरण देखे हैं, वे जमीनी सच्चाई का इस्तेमाल करते हैं। क्या मेरे परिणामों को सत्यापित करने के लिए इस डेटासेट पर k- गुना साधनों का उपयोग करने का कोई तरीका है?

जवाबों:


12

मुझे पता है कि क्लस्टरिंग के लिए क्रॉस-सत्यापन का एकमात्र आवेदन यह है:

  1. नमूना को 4 भागों के प्रशिक्षण सेट और 1 भाग परीक्षण सेट में विभाजित करें।

  2. प्रशिक्षण सेट के लिए अपनी क्लस्टरिंग विधि लागू करें।

  3. इसे टेस्ट सेट पर भी लागू करें।

  4. प्रशिक्षण सेट क्लस्टर में प्रत्येक अवलोकन को असाइन करने के लिए चरण 2 से परिणामों का उपयोग करें (उदाहरण के लिए k- साधनों के लिए निकटतम सेंट्रोइड)।

  5. परीक्षण सेट में, चरण 3 से प्रत्येक क्लस्टर के लिए गणना करें, उस क्लस्टर में टिप्पणियों के जोड़े की संख्या जहां प्रत्येक जोड़ी चरण 4 के अनुसार एक ही क्लस्टर में है (इस प्रकार @cbeleites द्वारा इंगित क्लस्टर-पहचान समस्या से बचने)। अनुपात देने के लिए प्रत्येक क्लस्टर में जोड़े की संख्या से विभाजित करें। सभी समूहों पर सबसे कम अनुपात इस बात का माप है कि नए नमूनों के लिए क्लस्टर सदस्यता की भविष्यवाणी करने का तरीका कितना अच्छा है।

  6. प्रशिक्षण और परीक्षण सेट में विभिन्न भागों के साथ चरण 1 से दोहराएँ इसे 5-गुना बनाने के लिए।

तिब्शीरानी और वाल्थर (2005), "क्लस्टर वैलिडेशन बाय प्रेडिक्शन स्ट्रेंथ", जर्नल ऑफ कम्प्यूटेशनल एंड ग्राफिकल स्टैटिस्टिक्स , 14 , 3।


क्या आप आगे बता सकते हैं कि अवलोकन की एक जोड़ी क्या है (और हम पहले जोड़े में टिप्पणियों का उपयोग क्यों कर रहे हैं)? इसके अलावा, हम कैसे निर्धारित कर सकते हैं कि परीक्षण सेट की तुलना में प्रशिक्षण सेट में "समान क्लस्टर" क्या है? मुझे लेख पर एक नज़र थी, लेकिन विचार नहीं मिला।
टंग्सी

1
@ भाषा: आप सभी जोड़ियों पर विचार करते हैं - यदि अवलोकन A, B, और C जोड़े हैं तो {A, B}, {A, C}, और {B, C} -, और आप परिभाषित करने का प्रयास नहीं करते हैं " एक ही क्लस्टर "ट्रेन और परीक्षण सेटों पर, जिसमें विभिन्न अवलोकन होते हैं। बल्कि आप परीक्षण सेट पर लागू किए गए दो क्लस्टरिंग समाधानों की तुलना करते हैं (प्रशिक्षण सेट से उत्पन्न एक और परीक्षण सेट से एक ही) यह देखते हुए कि वे प्रत्येक जोड़ी के सदस्यों को एकजुट करने या अलग करने में कितनी बार सहमत हैं।
Scortchi - को पुनः स्थापित मोनिका

ठीक है, तो जोड़ी के दो अवलोकनों, एक ट्रेन सेट पर, एक परीक्षण सेट पर, एक समान माप के साथ तुलना की जाती है?
टंगू

@ भाषा: नहीं, आप केवल परीक्षण सेट में टिप्पणियों के जोड़े पर विचार करते हैं।
Scortchi - को पुनः स्थापित मोनिका

खेद है कि मैं स्पष्ट नहीं था। सभी को परीक्षण सेट की टिप्पणियों की एक जोड़ी लेनी चाहिए, जिसमें से 0 और 1 से भरा एक मैट्रिक्स बनाया जा सकता है (0 यदि अवलोकन की जोड़ी एक ही क्लस्टर में झूठ नहीं है, 1 यदि वे करते हैं)। दो मेट्रिक्स की गणना तब से की जाती है, जब हम प्रशिक्षण सेट से प्राप्त क्लस्टर्स के लिए युग्मों के अवलोकन को देखते हैं और परीक्षण सेट से। फिर उन दो मैट्रिसेस की समानता को कुछ मीट्रिक के साथ मापा जाता है। क्या मैं सही हूँ?
ताँगुई

7

मैं यह समझने की कोशिश कर रहा हूं कि आप k- साधनों जैसे क्लस्टरिंग विधि के लिए क्रॉस वेलिडेशन कैसे लागू करेंगे क्योंकि नया आने वाला डेटा सेंट्रो और यहां तक ​​कि आपके मौजूदा एक पर क्लस्टर वितरण को बदल देगा।

क्लस्टरिंग पर अनियोजित सत्यापन के संबंध में, आपको पुन: सैंपल किए गए डेटा पर अलग-अलग क्लस्टर संख्या के साथ अपने एल्गोरिदम की स्थिरता को निर्धारित करने की आवश्यकता हो सकती है।

क्लस्टरिंग स्थिरता का मूल विचार नीचे दिए गए आंकड़े में दिखाया जा सकता है:

यहाँ छवि विवरण दर्ज करें

आप देख सकते हैं कि 2 या 5 की क्लस्टरिंग संख्या के साथ, कम से कम दो अलग-अलग क्लस्टरिंग परिणाम हैं (आंकड़ों में विभाजन डैश लाइनों को देखें), फिर भी 4 की क्लस्टरिंग संख्या के साथ, परिणाम अपेक्षाकृत स्थिर है।

क्लस्टरिंग स्थिरता: Ulrike वॉन Luxburg द्वारा एक सिंहावलोकन मददगार हो सकता है।


7

इस तरह के (पुनरावृत्त) -फॉल्ड क्रॉस सत्यापन के दौरान किए गए पुनरावर्तन "नए" डेटा सेट उत्पन्न करते हैं जो कुछ मामलों को हटाकर मूल डेटा सेट से भिन्न होते हैं।k

स्पष्टीकरण और स्पष्टता में आसानी के लिए मैं क्लस्टरिंग बूटस्ट्रैप करूंगा।

सामान्य तौर पर, आप अपने समाधान की स्थिरता को मापने के लिए इस तरह के resampled क्लस्टरिंग का उपयोग कर सकते हैं: क्या यह शायद ही कभी बदलता है या क्या यह पूरी तरह से बदलता है?

यद्यपि आपके पास कोई जमीनी सच्चाई नहीं है, फिर भी आप निश्चित रूप से क्लस्टरिंग की तुलना कर सकते हैं, जो एक ही विधि के अलग-अलग रन (परिणामी) या परिणाम द्वारा अलग-अलग क्लस्टरिंग एल्गोरिदम के परिणामों को सारणीबद्ध कर सकता है:

km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)

#      1  2  3
#   1 96  0  0
#   2  0  0 33
#   3  0 21  0

चूंकि क्लस्टर नाममात्र के हैं, इसलिए उनका क्रम मनमाने ढंग से बदल सकता है। लेकिन इसका मतलब यह है कि आपको ऑर्डर बदलने की अनुमति है ताकि क्लस्टर्स के अनुरूप हो। फिर विकर्ण * तत्व ऐसे मामलों को गिनते हैं जो एक ही क्लस्टर में दिए जाते हैं और ऑफ-विकर्ण तत्व यह दिखाते हैं कि असाइनमेंट किस तरीके से बदले गए हैं:

table (km1$cluster, km2$cluster)[c (1, 3, 2), ]

#      1  2  3
#   1 96  0  0
#   3  0 21  0
#   2  0  0 33

मैं कहता हूं कि प्रत्येक विधि के भीतर आपकी क्लस्टरिंग कितनी स्थिर है यह स्थापित करने के लिए रेज़मैपलिंग अच्छा है। इसके बिना यह अन्य तरीकों से परिणामों की तुलना करने के लिए बहुत अधिक समझ में नहीं आता है।

* यदि गैर-वर्ग मैट्रिसेस के साथ भी काम करता है, तो विभिन्न संख्या में क्लस्टर परिणाम देते हैं। मैं तब तत्वों को संरेखित करूँगा इसलिए पूर्व विकर्ण का अर्थ है। फिर अतिरिक्त पंक्तियों / स्तंभों से पता चलता है कि किस क्लस्टर में नए क्लस्टर को इसके मामले मिले हैं।i,i


आप k- गुना क्रॉस सत्यापन और k- साधन क्लस्टरिंग को नहीं मिला रहे हैं, क्या आप हैं?


0

यहां क्लस्टर की संख्या निर्धारित करने के लिए एक द्वि-क्रॉस सत्यापन विधि पर हाल ही में प्रकाशन हुआ है

और कोई व्यक्ति यहां सीख रहे विज्ञान-किट को लागू करने की कोशिश कर रहा है

हालांकि उनकी सफलता कुछ हद तक सीमित है। जब प्रकाशन इंगित करता है, यह विधि अच्छी तरह से काम नहीं करती है जब क्लस्टर केंद्र अत्यधिक सहसंबद्ध होते हैं जो निम्न आयामी प्रणालियों में बड़े क्लस्टर आकारों के लिए हो सकते हैं। (उदा । में क्लस्टर अच्छी तरह से काम नहीं करते हैं।)72D

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.