क्या cosine समानता l2- सामान्यीकृत यूक्लिडियन दूरी के समान है?


27

सामान्य अर्थ, कि यह वेक्टर यू और वैक्टर V के सेट के बीच समानता रैंकिंग के लिए समान परिणाम देगा ।

मेरे पास एक वेक्टर स्पेस मॉडल है जिसमें मापदंडों के रूप में दूरी माप (यूक्लिडियन दूरी, कोसाइन समानता) और सामान्यीकरण तकनीक (कोई नहीं, एल 1, एल 2) है। मेरी समझ से, सेटिंग [cosine, none] के परिणाम समान या कम से कम वास्तव में वास्तव में [euclidean, l2] के समान होने चाहिए, लेकिन वे नहीं हैं।

वास्तव में एक अच्छा मौका है कि प्रणाली अभी भी छोटी है - या क्या मुझे वैक्टर के बारे में कुछ गलत है?

संपादित करें: मैं यह उल्लेख करना भूल गया कि वैक्टर एक कॉर्पस में दस्तावेजों से शब्द गणना पर आधारित हैं। एक क्वेरी दस्तावेज़ (जिसे मैं एक शब्द गणना वेक्टर में भी बदलता हूं) को देखते हुए, मैं अपने कॉर्पस से दस्तावेज़ ढूंढना चाहता हूं जो इसके लिए सबसे अधिक समान है।

बस उनकी यूक्लिडियन दूरी की गणना करना एक सीधा आगे का उपाय है, लेकिन जिस तरह के काम में मैं काम करता हूं, कॉशन समानता को अक्सर एक समानता संकेतक के रूप में पसंद किया जाता है, क्योंकि केवल लंबाई में भिन्नता वाले वैक्टर को अभी भी समान माना जाता है। सबसे छोटी दूरी / कोसाइन समानता वाले दस्तावेज़ को सबसे समान माना जाता है।


यह सब इस बात पर निर्भर करता है कि आपका "वेक्टर स्पेस मॉडल" इन दूरियों के साथ क्या करता है। क्या आप इस बारे में अधिक विशिष्ट हो सकते हैं कि मॉडल क्या करता है?
whuber

क्षमा करें, कभी-कभी मेरे खुद के सिर से बाहर निकलना मुश्किल होता है। मैंने एक विनिर्देश जोड़ा।
Arne

आप अभी भी किसी भी मॉडल का वर्णन नहीं करते हैं। वास्तव में, आपके द्वारा "पर काम की तरह (आप) काम" के बारे में एकमात्र सुराग छोड़ दिया गया है, यह एलएमपी टैग है - लेकिन यह इतना व्यापक है कि यह बहुत मदद नहीं करता है। मैं आपसे क्या उम्मीद कर सकता हूं कि आप आपूर्ति कर सकते हैं, ताकि लोग प्रश्न को समझ सकें और अच्छे उत्तर प्रदान कर सकें, यह जानने के लिए पर्याप्त जानकारी है कि आप अपने दूरी माप का उपयोग कैसे कर रहे हैं और यह कैसे निर्धारित करता है कि "परिणाम" क्या हो सकते हैं।
whuber

आंकड़े.स्टैकएक्सचेंज . com/a/36158/3277 । किसी भी कोणीय उर्फ ​​sscp- प्रकार की समानता इसके संबंधित यूक्लिडियन दूरी के लिए परिवर्तनीय है।
ttnphns 12

जवाबों:


31

For असामान्य वैक्टर , हमारे पास है कि चुकता यूक्लिडियन दूरी कोसाइन दूरी के लिए आनुपातिक है , , भले ही आपने अपना डेटा सामान्य किया हो और आपका एल्गोरिथ्म दूरियों के स्केलिंग के लिए अपरिवर्तित था, फिर भी आप वर्ग के कारण अंतरों की अपेक्षा करेंगे।2x,y

||x||2=||y||2=1,
||xy||22=(xy)(xy)=xx2xy+yy=22xy=22cos(x,y)

क्या इससे रैंकिंग पर कोई प्रभाव पड़ेगा? मतलब, अगर मैं एक वेक्टर की कई संख्याएँ 'v_i' को 'V' में उनकी कोसनी दूरी पर वेक्टर 'u' में क्रमबद्ध करता हूं, तो मुझे उनके लिए एक विशिष्ट आदेश मिलता है। L_2 सामान्यीकृत यूक्लिडियन दूरी वाले उन्हीं वैक्टरों की रैंकिंग एक ही क्रम का उत्पादन करेगा?
अरन

2
iirc, चूँकि स्क्वरिंग एक मोनोटिक ट्रांसफ़ॉर्मेशन है (पॉज़िटिव नंबर्स के लिए), यह लंबाई द्वारा क्रमबद्ध अनुक्रम के क्रम को नहीं बदल सकता है।
अर्ने

5
आप सही हैं, अगर आप सभी वैक्टर को अपने से दूरी के आधार पर रैंक करते हैं, तो दूरी का उपयोग यूक्लिडियन दूरी (सामान्यीकृत वैक्टर के लिए) के समान परिणाम देना चाहिए। u
लुकास

धन्यवाद, क्या आपके पास इस संबंध के लिए एक उपयुक्त स्रोत है?
आर्ने

1
ठीक है, मुझे लगता है कि 'रैखिक एलेब्रा I' को तब दम लगाना पड़ा;) अंतर्दृष्टि के लिए फिर से धन्यवाद!
अरैन

5

कॉलम वैक्टर और : ग्रहण करते हुए, एक यूक्लिडियन स्पेस में निम्न के रूप में मानक कोसिन समानता को परिभाषित किया गया है। यह मानक आंतरिक उत्पाद को कम कर देता है यदि आपके वैक्टर को यूनिट मानदंड (एल 2 में) सामान्यीकृत किया जाता है। टेक्स्ट माइनिंग में इस तरह का सामान्यीकरण अनसुना नहीं है, लेकिन मैं इस मानक पर विचार नहीं करूंगा।uv

cos(u,v)=u,vuv=uTvuv[1,1].
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.