मेरे पास एक डेटासेट X है जिसमें 10 आयाम हैं, जिनमें से 4 असतत मान हैं। वास्तव में, वे 4 असतत चर क्रमबद्ध होते हैं, अर्थात उच्च मूल्य का अर्थ उच्च / बेहतर शब्दार्थ होता है।
इन असतत चर में से 2 इस अर्थ में स्पष्ट हैं कि इनमें से प्रत्येक चर के लिए, 11 से 12 तक की दूरी 5 से 6. की दूरी के समान नहीं है, जबकि एक उच्च चर मूल्य वास्तविकता में एक उच्चतर का मतलब है, पैमाना है जरूरी नहीं कि रैखिक (वास्तव में, यह वास्तव में परिभाषित नहीं है)।
मेरा सवाल यह है कि:
- क्या इस डेटासेट के लिए एक सामान्य क्लस्टरिंग एल्गोरिथ्म (जैसे K- मीन्स और फिर गॉसियन मिक्सचर (GMM)) को लागू करना एक अच्छा विचार है, जिसमें असतत और निरंतर चर दोनों शामिल हैं?
अगर नहीं:
- क्या मुझे असतत चर को हटा देना चाहिए और केवल निरंतर लोगों पर ध्यान केंद्रित करना चाहिए?
- क्या मुझे निरंतर लोगों को बेहतर ढंग से समझाना चाहिए और असतत डेटा के लिए क्लस्टरिंग एल्गोरिथ्म का उपयोग करना चाहिए?