जब आप किमी कोहनी क्लस्टरिंग के लिए कोई कोहनी बिंदु नहीं है तो आप क्या करते हैं


13

मैंने सीखा है कि जब कई समूहों को चुनते हैं, तो आपको कश्मीर के विभिन्न मूल्यों के लिए एक कोहनी बिंदु की तलाश करनी चाहिए। मैंने कश्मीर के मूल्यों को 1 से 10 तक के मूल्यों के लिए प्लॉट किया है, लेकिन मैं स्पष्ट नहीं देख रहा हूं कोहनी। इस तरह से एक मामले में आप क्या करते हैं?

कष्टप्रद केमियां


2
कई क्लस्टरिंग मानदंड मौजूद हैं, "एसएस कोहनी" नियम सिर्फ एक है और सबसे अच्छा नहीं है। अन्य प्रयास करें। यह भी संभावना है कि आपके डेटा में क्लस्टर नहीं हैं।
ttnphns

@ttnphns यह रहस्यमय क्या है जिसके बारे में आप बात करते हैं? मैं अपने डेटा में क्लस्टर कैसे नहीं कर सकता हूं? मुझे कैसे पता चलेगा?
ग्लेन

जवाबों:


7

गलत तरीका?

हो सकता है कि आप अपनी समस्या के लिए गलत एल्गोरिदम का उपयोग कर रहे हों।

गलत प्रीप्रोसेसिंग?

K- साधन प्रीप्रोसेसिंग के प्रति अत्यधिक संवेदनशील है। यदि एक विशेषता अन्य की तुलना में बहुत बड़े पैमाने पर है, तो यह आउटपुट पर हावी होगी। आपका आउटपुट तब प्रभावी रूप से 1-आयामी होगा

परिणामों की कल्पना करें

आप जो कुछ भी करते हैं, आपको एसएसक्यू जैसे नंबर पर शुरू करने के अलावा किसी अन्य चीज़ से अपने परिणामों को मान्य करना होगा। इसके बजाय, दृश्य पर विचार करें ।

विज़ुअलाइज़ेशन आपको यह भी बता सकता है कि शायद आपके डेटा में केवल एक ही क्लस्टर है।


बहुआयामी डेटा के लिए कुछ अच्छे दृश्य विकल्प क्या हैं?
जेरेमी

1
आपके डेटा पर निर्भर करता है। कुछ आंकड़ों को अच्छी तरह से पेश किया जा सकता है, क्योंकि इसमें आंतरिक आंतरिकता बहुत कम है। समय श्रृंखला आसानी से प्लॉट की जा सकती है, और यदि आपका डेटा एक क्रमबद्ध छवि है, तो इसे छवियों के रूप में कल्पना करें? किसी भी तरह से, विज़ुअलाइज़ेशन आपके डेटा पर निर्भर करता है , कभी भी एक-आकार-फिट-सभी समाधान नहीं होगा।
QUIT - Anony-Mousse

3

एक तरीका यह है कि आपके समूह में सदस्यों को मैन्युअल रूप से निरीक्षण करने के लिए एक विशिष्ट कश्मीर के लिए यह देखने के लिए कि क्या समूह समझ में आता है (क्या यह अंतर है?)। यह आकस्मिक तालिकाओं और सशर्त साधनों के माध्यम से किया जा सकता है। इसे विभिन्न प्रकार के k के लिए करें और आप यह निर्धारित कर सकते हैं कि क्या मूल्य उचित है।

सिल्हूट मान का उपयोग करने के लिए एक कम व्यक्तिपरक तरीका है:

/programming/18285434/how-do-i-choose-k-when-using-k-means-clustering-with-silhouette-function

यह आपके पसंदीदा सॉफ्टवेयर पैकेज के साथ गणना की जा सकती है। लिंक से:

यह विधि सिर्फ इंट्रा-ग्रुप समानता की निकटतम समूह समानता से तुलना करती है। यदि किसी डेटा क्लस्टर के अन्य सदस्यों की औसत दूरी कुछ अन्य क्लस्टर सदस्यों से औसत दूरी से अधिक है, तो यह मान ऋणात्मक है और क्लस्टरिंग सफल नहीं है। दूसरी ओर, 1 के करीब सिल्हूट मान एक सफल क्लस्टरिंग ऑपरेशन को इंगित करता है। 0.5 क्लस्टरिंग के लिए एक सटीक उपाय नहीं है।


ग्लेन, मुझे व्यक्तिगत रूप से लगता है कि आपका उत्तर अधूरा है। पहला पैराग्राफ अस्पष्ट दिखता है। वह "मैनुअल निरीक्षण" क्या है, क्या आप कृपया प्रक्रिया का वर्णन कर सकते हैं? फिर, सिल्हूट की तुलना में "कम व्यक्तिपरक" है क्या ? और क्यों?
ttnphns

@ttnphns उत्तर अपडेट किया गया।
ग्लेन

contingency tables and conditional meansयह और रहस्यमय है। उनके साथ मुझे क्या करना चाहिए जो एक अच्छे कश्मीर में "विषयवस्तु" पर पहुंचे?
ttnphns

@ttnphns यदि पोस्टर में इसके बारे में कोई प्रश्न है तो मैं इसका पालन करूंगा। जैसा कि मैंने कहा कि आपको यह देखना चाहिए कि क्या समूह अलग-अलग हैं। यह मुझे स्पष्ट लगता है।
ग्लेन

इसलिए अगर मुझे कम सिल्हूट मान मिलता है (~ .35) यह संकेत दे सकता है कि इस डेटा में वास्तव में अच्छे क्लस्टर नहीं हैं?
जेरेमी

0
  • K- साधनों के लिए कोई कोहनी का मतलब यह नहीं है कि डेटा में कोई क्लस्टर नहीं हैं;
  • कोई कोहनी का मतलब यह नहीं है कि इस्तेमाल किया एल्गोरिथ्म अलग क्लस्टर नहीं कर सकता है; (गाढ़ा हलकों के लिए K- साधनों के बारे में सोचें, DBSCAN बनाम)

आम तौर पर, आप इस पर विचार कर सकते हैं:

  • अपने एल्गोरिथ्म को ट्यून करें;
  • दूसरे एल्गोरिथ्म का उपयोग करें;
  • डेटा प्रीप्रोसेसिंग करें।

-1

हम k का सबसे इष्टतम मान ज्ञात करने के लिए NbClust पैकेज का उपयोग कर सकते हैं। यह समूहों की संख्या निर्धारित करने के लिए 30 सूचकांक प्रदान करता है और सर्वोत्तम परिणाम का प्रस्ताव करता है।

NbClust (डेटा = df, दूरी = "यूक्लिडियन", min.nc = 2, max.nc = 15, method = "kmeans", index = "all")


साइट पर आपका स्वागत है! क्या आप इस उत्तर पर विस्तार कर सकते हैं? सहायक होते समय, थोड़ा अधिक विस्तार इसे और अधिक उपयोगी बना देगा।
mkt -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.