सबसे अच्छा दूरी उपाय का उपयोग करने के लिए


12

प्रसंग

मेरे पास डेटा के दो सेट हैं जिनकी मैं तुलना करना चाहता हूं। दोनों सेटों में प्रत्येक डेटा तत्व एक वेक्टर है जिसमें 22 कोण होते हैं (सभी के बीच और )। कोण किसी दिए गए मानव मुद्रा विन्यास से संबंधित हैं, इसलिए एक मुद्रा 22 संयुक्त कोणों द्वारा परिभाषित की जाती है।ππ

अंततः मैं जो करने की कोशिश कर रहा हूं वह डेटा के दो सेटों की "निकटता" को निर्धारित करता है। तो एक सेट में प्रत्येक मुद्रा (22D वेक्टर) के लिए, मैं दूसरे सेट में इसके निकटतम पड़ोसी को ढूंढना चाहता हूं, और प्रत्येक निकटतम जोड़े के लिए एक दूरी की साजिश तैयार करता हूं।

प्रशन

  • क्या मैं यूक्लिडियन दूरी का उपयोग कर सकता हूं?
    • सार्थक होने के लिए, मुझे लगता है कि दूरी मीट्रिक को इस रूप में परिभाषित करने की आवश्यकता होगी: , कहाँनिरपेक्ष मूल्य है और मॉड modulo है। फिर परिणामस्वरूप 22 टीटीए का उपयोग करके, मैं मानक यूक्लिडियन दूरी गणना, ।θ=|θ1θ2|modπ|...|t12+t22++t222
    • क्या ये सही है?
  • क्या अन्य दूरी मीट्रिक अधिक उपयोगी होगी, जैसे ची-स्क्वायर, या भट्टाचार्य, या कुछ अन्य मीट्रिक? यदि हां, तो क्या आप कृपया कुछ अंतर्दृष्टि प्रदान कर सकते हैं।

3
एक साइड नोट के रूप में: मुझे नहीं लगता कि आपका मतलब है । बल्कि कुछ ऐसा है जैसे | |θ1θ2|modπmin{|θ1θ2|,2π|θ1θ2|}
एरिक पी।

4
कोणों के साथ काम करने के बजाय, मैं पहले यूनिट-सर्कल पर (x, y) -coordinates को परिवर्तित करने का सुझाव देता हूं। तब आप सामान्य रूप से गणना कर सकते हैं (दूरी और पसंद), और औसत कोण जैसी समस्या नहीं है।
काराकल

2
@ जोश एरिक पी। का सुझाव अच्छा है। वैकल्पिक रूप से, इकाई कोण पर प्रत्येक कोण को बिंदु और सामान्य (पाइथोगोरियन) सूत्र का उपयोग करके उनके बीच यूक्लिडियन दूरी की गणना करते हैं। इन दूरियों और कोणीय दूरी के बीच का अंतर मायने नहीं रखता। (मेरा मानना है कि यह हो सकता है क्या कैरकल सुझाव दिया है, भी।)θ(cos(θ),sin(θ))
whuber

2
@Josh, की औसत जैसे, और है । कई परिस्थितियों में, इसका कोई मतलब नहीं है, और इसके बजाय होना चाहिए । अपने विशिष्ट स्थिति में, यह कोई मुद्दा नहीं हो सकता है के बाद से शायद मानव जोड़ों अतीत गति की एक सीमा नहीं है । इसके अलावा, आपके मामले में, हो सकता है कि आप चाहते हैं कि संयुक्त प्रस्ताव के निर्देशन के बाद से उक्त औसत हो। @ व्हिबर का सुझाव वास्तव में मेरा मतलब है। π/47π/4π0ππ
काराकल

3
आपकी समस्या शायद हल करने में बहुत आसान हो जाएगी यदि आप "इसे गलत होने" के परिणामों को निर्दिष्ट कर सकते हैं। इसलिए यदि आप कहते हैं कि डेटा सेट समान या समान हैं, लेकिन वे वास्तव में नहीं हैं, तो आपका क्या होगा? क्या यह आपके निर्णय पर "कितना गलत" निर्भर करेगा? यदि आप डेटा / पोज़ को अलग-अलग घोषित करते हैं, तो क्या होगा, लेकिन वे वास्तव में समान या समान हैं? क्या खोया है? इन सवालों के जवाब देने से यह निर्धारित करने में मदद मिलेगी कि आप जो तुलना करना चाहते हैं उसके लिए क्या मायने रखता है । यह सुनिश्चित करता है कि आप सही प्रश्न का उत्तर दे रहे हैं।
probabilityislogic

जवाबों:


5

आप प्रत्येक सेट के लिए सहसंयोजक मैट्रिक्स की गणना कर सकते हैं और फिर महलनोबिल दूरी का उपयोग करके दो सेट के बीच हॉसडॉर्फ दूरी की गणना कर सकते हैं।

महालनोबिस दूरी एक ज्ञात व्यक्ति के लिए निर्धारित अज्ञात नमूने की समानता का निर्धारण करने का एक उपयोगी तरीका है। यह यूक्लिडियन दूरी से अलग है जिसमें यह डेटा सेट के सहसंबंधों को ध्यान में रखता है और स्केल-इनवेरिएंट है।


3

आप निकटतम पड़ोसी जानकारी के साथ क्या करने की कोशिश कर रहे हैं?

मैं उस प्रश्न का उत्तर दूंगा, और उसके बाद अलग-अलग दूरी के उपायों की तुलना में।

उदाहरण के लिए, कहें कि आप संयुक्त विन्यास के आधार पर पोज़ को वर्गीकृत करने की कोशिश कर रहे हैं, और एक ही मुद्रा से संयुक्त वैक्टर को एक साथ बंद करना चाहेंगे। अलग-अलग दूरी की मीट्रिक की उपयुक्तता का मूल्यांकन करने का एक सीधा तरीका है कि उनमें से प्रत्येक का उपयोग KNN क्लासिफायरियर में किया जाए, और प्रत्येक परिणामी मॉडल के आउट-ऑफ-सैंपल सटीकता की तुलना करें।


2

ऐसा लगता है कि यह सूचना पुनर्प्राप्ति (IR) के एक निश्चित अनुप्रयोग के समान है। कुछ साल पहले मैंने गैट मान्यता के बारे में एक चर्चा में भाग लिया जो कि आप जो कर रहे हैं, उसके समान है। सूचना पुनर्प्राप्ति में, "दस्तावेज़" (आपके मामले में: एक व्यक्ति का कोण डेटा) की तुलना कुछ क्वेरी (जो आपके मामले में हो सकती है) की तुलना कोण डेटा (.., ..) के साथ एक व्यक्ति है)। फिर दस्तावेजों को उसी के क्रम में सूचीबद्ध किया जाता है जो सबसे कम से कम से मेल खाने वाले से निकटतम मिलान करता है। यह बदले में, इसका मतलब है कि आईआर का एक केंद्रीय घटक किसी तरह के वेक्टर अंतरिक्ष (आपके मामले में: कोण स्थान) में एक दस्तावेज डाल रहा है और इसकी तुलना एक विशिष्ट क्वेरी या उदाहरण दस्तावेज़ से कर रहा है या उनकी दूरी को माप रहा है। (नीचे देखें।) यदि आपके पास दो अलग-अलग वैक्टर के बीच की दूरी की ध्वनि परिभाषा है, आपको बस दो डेटा सेट की दूरी के लिए एक उपाय करना है। (परंपरागत रूप से IR में वेक्टर स्पेस मॉडल में दूरी की गणना या तो कॉशन माप या यूक्लिडियन दूरी से की जाती है, लेकिन मुझे याद नहीं है कि उन्होंने उस मामले में यह कैसे किया।) IR में "प्रासंगिकता प्रतिक्रिया" नामक एक तंत्र भी है, जो कि अवधारणा है। , दस्तावेजों के दो सेट की दूरी के साथ काम करता है। वह तंत्र आम तौर पर दूरी की माप का उपयोग करता है जो सभी जोड़े दस्तावेजों (या आपके मामले में: व्यक्ति वैक्टर) के बीच सभी व्यक्तिगत दूरी को पूरा करता है। हो सकता है कि यह आपके लिए काम का हो।

निम्नलिखित पृष्ठ में कुछ ऐसे कागजात हैं जो आपके मुद्दे के लिए प्रासंगिक हैं: http://www.mpi-inf.mpg.de/~mmueller/index_publications.html विशेष रूप से यह एक http://www.mpi-inf.mpg.de/ ~ mmueller / publications / 2006_DemuthRoederMuellerEberhardt_MocapRetrievalSystem_ECIR.pdf दिलचस्प लगता है। मुलर की बात कि मैंने कोवर और ग्लीचर से "पॉइंट क्लाउड" नामक समानता उपायों का उल्लेख किया (देखें http://portal.acm.org/citation.cfm?id=1186562.1015760&doll=DL&dl=ACM ) और एक ने "चतुर्भुज" कहा। । आशा करता हूँ की ये काम करेगा।


यदि आप इसे खोजने में सक्षम हैं तो संदर्भ रखना उपयोगी होगा। धन्यवाद।
जोश

2

(xy)tA(xy)AAAA


0

आकार के लिए प्रॉक्सी के रूप में कोणों का उपयोग करने के साथ एक समस्या यह है कि कोणों में छोटे गड़बड़ी आकार में बड़े गड़बड़ी पैदा कर सकते हैं। इसके अलावा, विभिन्न कोण विन्यास एक ही (या समान) आकार में परिणाम कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.