या


14

क्या कोई L 2 की बजाय क्लस्टरिंग के लिए या L .5 मेट्रिक्स का उपयोग करता है ? अग्रवाल एट अल।, उच्च आयामी अंतरिक्ष में दूरी मैट्रिक्स के आश्चर्यजनक व्यवहार पर (2001 में) कहा किL1L.5L2

लगातार अधिक बेहतर है तोउच्च आयामी डेटा खनन अनुप्रयोगों के लिएयूक्लिडियन दूरी मीट्रिक एल 2L1L2

और दावा किया कि या एल .1 अभी तक बेहतर हो सकता है।L.5L.1

या एल .5 का उपयोग करने के कारण सैद्धांतिक या प्रायोगिक हो सकते हैं, उदाहरण के लिए आउटलेर / काबन के कागजात के प्रति संवेदनशीलता, या प्रोग्राम वास्तविक या सिंथेटिक डेटा (प्रजनन योग्य कृपया) पर चलते हैं। एक उदाहरण या एक तस्वीर मेरे आम आदमी के अंतर्ज्ञान में मदद करेगी।L1L.5

यह सवाल बॉब-दुरंत के जब-जब-पास-पड़ोसी-सार्थक-आज के जवाब का अनुवर्ती है । जैसा कि वे कहते हैं, की पसंद डेटा और एप्लिकेशन दोनों पर निर्भर होगी; बहरहाल, वास्तविक अनुभव की रिपोर्ट उपयोगी होगी।p


मंगलवार 7 जून को जोड़े गए नोट्स:

मैं "सांख्यिकीय डेटा विश्लेषण L1- मानक और संबंधित तरीकों पर आधारित", चकमा एड।, 2002, 454p, isbn 3764369205 - दर्जनों सम्मेलन पत्रों के पार ठोकर खाई।

क्या कोई आईआईडी घातीय विशेषताओं के लिए दूरी की एकाग्रता का विश्लेषण कर सकता है? घातांक का एक कारण यह है ; एक और (गैर विशेषज्ञ) है कि यह अधिकतम एंट्रोपी वितरण है 0; तीसरा यह है कि कुछ वास्तविक डेटा सेट, विशेष रूप से SIFT में, मोटे तौर पर घातीय लगते हैं।|expexp|exp


यह उल्लेख करना महत्वपूर्ण है कि अग्रवाल एट अल। उस विशिष्ट लेख में जहां क्लस्टरिंग, निकटतम पड़ोसी और अनुक्रमण जैसी समस्याओं में मानदंडों के व्यवहार की तलाश है । Lp
डिप्स_स्टेट्स

आप शायद कार्यों के लिए एल पी के बजाय अनुक्रमों के लिए मैट्रिक्स का मतलब है ? मेरी राय में, अगर कोई अनुकूलन मानदंड है तो समस्या को हल करके इसे अनुकूलित किया जा सकता है। नियम-से-अंगूठे आमतौर पर इस तरह के सटीक समाधान से संबंधित होंगे। वैसे भी, घुटने के समाधान के गुणों के बारे में सोचने की कोशिश करें। मैं लेख पढ़ने के बाद शायद इस विषय पर कुछ और कह सकता था। lpLp
पापेल सेलोव

@deps_stats, हाँ, धन्यवाद; शीर्षक और पहली पंक्ति को बदल दिया। @ डमित्रे, 1) हाँ लिटिल-एल सख्ती से सही बोल रहा है, लेकिन बिग-एल आम और समझ में आता है। 2) हाँ किसी को दी गई समस्या के लिए एक इष्टतम पी मिल सकता है, लेकिन आपकी पहली पसंद क्या है, और क्यों?
डेनिस

जवाबों:


6

यहां कुंजी "आयामीता के अभिशाप" को कागज़ के संदर्भ में समझ रही है। विकिपीडिया से: जब आयामों की संख्या बहुत बड़ी हो,

लगभग सभी उच्च-आयामी स्थान केंद्र से "बहुत दूर" है, या इसे दूसरे तरीके से रखने के लिए, उच्च-आयामी इकाई स्थान को हाइपरक्यूब के लगभग "कोनों" से लगभग पूरी तरह से मिलकर कहा जा सकता है, लगभग नहीं के साथ "मध्य"

नतीजतन, यह सोचना मुश्किल हो जाता है कि कौन से बिंदु अन्य बिंदुओं के करीब हैं, क्योंकि वे सभी अधिक या कम समान रूप से अलग हैं। यह आपके द्वारा पहले पेपर से जुड़ी समस्या है।

उच्च पी के साथ समस्या यह है कि यह बड़े मूल्यों पर जोर देता है - पांच वर्ग और चार वर्ग अलग-अलग नौ इकाई हैं, लेकिन एक वर्ग और दो वर्ग अलग-अलग केवल तीन इकाई हैं। तो बड़े आयाम (कोनों में चीजें) सब कुछ पर हावी हैं और आप इसके विपरीत खो देते हैं। इसलिए बड़ी दूरियों की यह महंगाई से आप बचना चाहते हैं। एक आंशिक पी के साथ, छोटे आयामों में अंतर पर जोर दिया जाता है - आयाम जो वास्तव में मध्यवर्ती मूल्य हैं - जो आपको अधिक विपरीत देता है।


(+1) तो @ डेविड, सामान्य तौर पर एक ऐसी कसौटी है जो विपरीतता की गुणवत्ता का वर्णन करती है?
पापी सेलोव

ऐसा लगता है कि आपके द्वारा जोड़ा गया पहला पेपर न्यूनतम दूरी न्यूनतम अधिकतम दूरी दर्शाता है। हालांकि, बेहतर तरीके हो सकते हैं।
डेविड जे। हैरिस

अच्छा स्पष्ट अंतर्ज्ञान, +1 (हालांकि यह स्पष्ट नहीं है कि कोने दूरी वितरण में कहां हैं)। क्या आपने वास्तविक डेटा पर या L .5 का उपयोग किया है ? L1L.5
डेनिस

1
@ डेनिस थैंक्स! मुझे लगता है कि कोनों को सबसे अधिक समझ में आता है अगर डेटा सहज या सभी आयामों से बंधा हो। वैसे भी, मुझे डर है कि आपके पास विभिन्न मैट्रिक्स के बारे में अच्छी अंतर्ज्ञान होने के लिए क्लस्टरिंग के साथ पर्याप्त अनुभव नहीं है। के रूप में यह कष्टप्रद है, सबसे अच्छा तरीका हो सकता है कि कुछ प्रयास करें और देखें कि क्या होता है
डेविड जे। हैरिस

1

1 और 5 के बीच p के साथ Lp मीट्रिक का उपयोग करने वाला एक पेपर होता है, जिसे आप देख सकते हैं:

के-मीन्स क्लस्टरिंग, पैटर्न रिकॉग्निशन, वॉल्यूम में एमोरिम, आरसी और मिरकिन, बी।, मिंकोव्स्की मेट्रिक, फ़ीचर वेटिंग और अनमोल कलस्टर इनिशिएटिव। 45 (3), पीपी 1061-1075, 2012

डाउनलोड, https://www.researchgate.net/publication/232282003_Author की s_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a04070407


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.