अधिकांश शास्त्रीय क्लस्टरिंग और डायमेंशन कम करने वाले एल्गोरिदम (पदानुक्रमित क्लस्टरिंग, प्रिंसिपल कंपोनेंट एनालिसिस, के-मीन्स, सेल्फ-ऑर्गनाइजिंग मैप्स ...) विशेष रूप से न्यूमेरिक डेटा के लिए डिज़ाइन किए गए हैं, और उनके इनपुट डेटा को यूक्लिडियन स्पेस में पॉइंट के रूप में देखा जाता है।
यह निश्चित रूप से एक समस्या है, क्योंकि कई वास्तविक-दुनिया के सवालों में डेटा मिलाया जाता है: उदाहरण के लिए यदि हम बसों का अध्ययन करते हैं, तो ऊंचाई और लंबाई और मोटर आकार संख्या होंगे, लेकिन हमें रंग में भी रुचि हो सकती है (श्रेणीगत चर: नीला / लाल / हरी ...) और क्षमता वर्ग (आदेशित चर: छोटे / मध्यम / बड़ी क्षमता)। विशेष रूप से, हम इन विभिन्न प्रकार के चर का एक साथ अध्ययन करना चाहते हैं।
मिश्रित डेटा के लिए शास्त्रीय क्लस्टरिंग एल्गो का विस्तार करने के लिए कई विधियां हैं, उदाहरण के लिए, पदानुक्रमित क्लस्टरिंग या बहुआयामी स्केलिंग, या इनपुट के रूप में एक दूरी मैट्रिक्स लेने वाले अन्य तरीकों में प्लग करने के लिए एक गोवर असमानता का उपयोग करना। या उदाहरण के लिए इस विधि, मिश्रित डेटा के लिए SOM का एक विस्तार।
मेरा सवाल है: हम मिश्रित चरों पर यूक्लिडियन दूरी का उपयोग क्यों नहीं कर सकते? या ऐसा करना क्यों बुरा है? हम सिर्फ डमीज को क्यों नहीं बदल सकते हैं ?
यह वास्तव में आसान है, और कभी नहीं किया है, इसलिए मुझे लगता है कि यह बहुत गलत है, लेकिन क्या कोई मुझे बता सकता है कि क्यों? और / या मुझे कुछ रेफ दे? धन्यवाद