असतत और निरंतर चर दोनों के साथ एक डाटासेट क्लस्टरिंग


33

मेरे पास एक डेटासेट X है जिसमें 10 आयाम हैं, जिनमें से 4 असतत मान हैं। वास्तव में, वे 4 असतत चर क्रमबद्ध होते हैं, अर्थात उच्च मूल्य का अर्थ उच्च / बेहतर शब्दार्थ होता है।

इन असतत चर में से 2 इस अर्थ में स्पष्ट हैं कि इनमें से प्रत्येक चर के लिए, 11 से 12 तक की दूरी 5 से 6. की दूरी के समान नहीं है, जबकि एक उच्च चर मूल्य वास्तविकता में एक उच्चतर का मतलब है, पैमाना है जरूरी नहीं कि रैखिक (वास्तव में, यह वास्तव में परिभाषित नहीं है)।

मेरा सवाल यह है कि:

  • क्या इस डेटासेट के लिए एक सामान्य क्लस्टरिंग एल्गोरिथ्म (जैसे K- मीन्स और फिर गॉसियन मिक्सचर (GMM)) को लागू करना एक अच्छा विचार है, जिसमें असतत और निरंतर चर दोनों शामिल हैं?

अगर नहीं:

  • क्या मुझे असतत चर को हटा देना चाहिए और केवल निरंतर लोगों पर ध्यान केंद्रित करना चाहिए?
  • क्या मुझे निरंतर लोगों को बेहतर ढंग से समझाना चाहिए और असतत डेटा के लिए क्लस्टरिंग एल्गोरिथ्म का उपयोग करना चाहिए?

3
आपको एक अच्छी दूरी माप (अक्सर क्लस्टरिंग में सबसे कठिन कार्य) खोजने की आवश्यकता है: यदि आप एक दूरी माप पा सकते हैं जो आपके डेटा आइटमों के समान (या नहीं) सही ढंग से और सटीक वर्णन करता है, तो आपको कोई समस्या नहीं होनी चाहिए।
एंड्रयू

उन 2 श्रेणीगत चरों के बारे में बोलते हुए, आपने उन्हें क्रमबद्ध बताया। अब, बाकी 2 "क्रमिक" चर के बारे में क्या है? कैसे वे उन लोगों से अलग हैं?
ttnphns

वे असतत भी हैं, लेकिन दोनों में एक सार्थक दूरी का कार्य है, यानी वे अंतराल-आधारित हैं (यदि मैं अंतराल-आधारित की परिभाषा को गड़बड़ नहीं कर रहा हूं)।
पीटीकोबज

जवाबों:


14

7

मुझे अतीत में इस तरह की समस्या से जूझना पड़ा है, और मुझे लगता है कि 2 दिलचस्प दृष्टिकोण हो सकते हैं:

  • निरंतरता: पूर्णांक के अनुक्रम के साथ प्रतीकात्मक विशेषताओं को बदलना। ऐसा करने के कई तरीके हैं, जिनमें से सभी इस पेपर में वर्णित हैं । आप NBF, VDM और MDV एल्गोरिदम आज़मा सकते हैं।

  • विचलन: निरंतर विशेषताओं को प्रतीकात्मक मूल्यों में बदलना। फिर, कई एल्गोरिदम, और इस पर एक अच्छा व्याख्यान यह लेख होगा । मेरा मानना ​​है कि सबसे अधिक इस्तेमाल की जाने वाली विधि है होल्ट की 1 आर, लेकिन सुनिश्चित करने के लिए सबसे अच्छा तरीका ईडब्ल्यूडी, ईएफडी, आईडी, एलडी या एनडीडी जैसे एल्गोरिदम के खिलाफ आरओसी घटता को देखना है।

एक बार जब आप एक ही स्थान पर अपनी सभी विशेषताएं रखते हैं, तो यह एक सामान्य क्लस्टरिंग समस्या बन जाती है।

निरंतरता या विवेक के बीच चयन आपके डेटासेट पर निर्भर करता है और आपकी विशेषताएं कैसी दिखती हैं, इसलिए यह कहना थोड़ा कठिन है, लेकिन मैं आपको उन लेखों को पढ़ने की सलाह देता हूं जो मैंने आपको उस विषय पर दिए थे।


4

K- साधन का स्पष्ट रूप से कोई मतलब नहीं है, क्योंकि यह गणना करता है (जो निरर्थक हैं)। उसी जीएमएम के लिए जाता है।

आप उचित दूरी के कार्यों के साथ दूरी आधारित क्लस्टरिंग एल्गोरिदम की कोशिश करना चाह सकते हैं, उदाहरण के लिए DBSCAN।

मुख्य चुनौती एक दूरी समारोह खोजने के लिए है!

जब आप k- साधनों में एक अलग दूरी का कार्य कर सकते हैं, तो यह अभी भी उस गणना की गणना करेगा जो संभवतः बहुत अधिक समझ में नहीं आता है (और संभवतः असतत मानों के लिए दूरी फ़ंक्शन के साथ गड़बड़ करता है)।

वैसे भी, पहले "समान" को परिभाषित करने पर ध्यान केंद्रित करें । फिर इसी तरह की परिभाषा का उपयोग करके क्लस्टर!


2

यदि आप आकार के एक दूरी मैट्रिक्स के साथ काम करने में सहज हैं num_of_samples x num_of_samples, तो आप उपयोग कर सकते हैं random forests, साथ ही साथ।

शीर्षक वाले संदर्भ पत्र के लिए यहां क्लिक करेंUnsupervised learning with random forest predictors

यह विचार shufflingमूल डेटासेट में मूल्यों द्वारा एक सिंथेटिक डेटासेट बना रहा है और दोनों को अलग करने के लिए एक क्लासिफायरियर को प्रशिक्षित कर रहा है। वर्गीकरण के दौरान आपको एक मिलेगा inter-sample distance matrix, जिस पर आप अपने पसंदीदा क्लस्टरिंग एल्गोरिदम का परीक्षण कर सकते हैं।


-2

अपनाए जाने वाले मिश्रित दृष्टिकोण: 1) 2 वर्गों में सेट किए गए डेटा को वर्गीकृत करने के लिए वर्गीकरण तकनीक (C4.5 निर्णय वृक्ष) का उपयोग करें। 2) यह हो जाने के बाद, श्रेणीबद्ध चर छोड़ दें और क्लस्टरिंग के लिए निरंतर चर के साथ आगे बढ़ें।


मैं आपके सुझाव का पालन नहीं कर सका। कौन सी दो कक्षाएं, और वह कैसे मदद करेगी?
कार्तिकस

मुझे लगता है कि स्वप्निल सोनी को यह कहने की जरूरत है कि एक बार जब हम वर्गीकरण तकनीक का उपयोग करके इसे दो वर्गों में वर्गीकृत करते हैं। हम तब वर्गीकरण आउटपुट के लेबल का उपयोग बाइनरी वैरिएबल के रूप में कर सकते हैं। इसलिए सभी श्रेणीबद्ध चर के बजाय आपको एक संकेत बाइनरी चर मिलता है और फिर आपका क्लस्टरिंग एल्गोरिदम डेटा के साथ आगे बढ़ सकता है (सभी निरंतर 1 बाइनरी चर से मिलकर)। मेरी व्याख्या हालांकि गलत हो सकती है।
तुषारहार

पूरी तरह से ठीक!
स्वप्निल सोनी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.