क्या कोई L 2 की बजाय क्लस्टरिंग के लिए या L .5 मेट्रिक्स का उपयोग करता है ?
अग्रवाल एट अल।,
उच्च आयामी अंतरिक्ष में दूरी मैट्रिक्स के आश्चर्यजनक व्यवहार पर
(2001 में) कहा कि
लगातार अधिक बेहतर है तोउच्च आयामी डेटा खनन अनुप्रयोगों के लिएयूक्लिडियन दूरी मीट्रिक एल 2
और दावा किया कि या एल .1 अभी तक बेहतर हो सकता है।
या एल .5 का उपयोग करने के कारण सैद्धांतिक या प्रायोगिक हो सकते हैं, उदाहरण के लिए आउटलेर / काबन के कागजात के प्रति संवेदनशीलता, या प्रोग्राम वास्तविक या सिंथेटिक डेटा (प्रजनन योग्य कृपया) पर चलते हैं। एक उदाहरण या एक तस्वीर मेरे आम आदमी के अंतर्ज्ञान में मदद करेगी।
यह सवाल बॉब-दुरंत के जब-जब-पास-पड़ोसी-सार्थक-आज के जवाब का अनुवर्ती है । जैसा कि वे कहते हैं, की पसंद डेटा और एप्लिकेशन दोनों पर निर्भर होगी; बहरहाल, वास्तविक अनुभव की रिपोर्ट उपयोगी होगी।
मंगलवार 7 जून को जोड़े गए नोट्स:
मैं "सांख्यिकीय डेटा विश्लेषण L1- मानक और संबंधित तरीकों पर आधारित", चकमा एड।, 2002, 454p, isbn 3764369205 - दर्जनों सम्मेलन पत्रों के पार ठोकर खाई।
क्या कोई आईआईडी घातीय विशेषताओं के लिए दूरी की एकाग्रता का विश्लेषण कर सकता है? घातांक का एक कारण यह है ; एक और (गैर विशेषज्ञ) है कि यह अधिकतम एंट्रोपी वितरण है ≥ 0; तीसरा यह है कि कुछ वास्तविक डेटा सेट, विशेष रूप से SIFT में, मोटे तौर पर घातीय लगते हैं।