सामान्य अर्थ, कि यह वेक्टर यू और वैक्टर V के सेट के बीच समानता रैंकिंग के लिए समान परिणाम देगा ।
मेरे पास एक वेक्टर स्पेस मॉडल है जिसमें मापदंडों के रूप में दूरी माप (यूक्लिडियन दूरी, कोसाइन समानता) और सामान्यीकरण तकनीक (कोई नहीं, एल 1, एल 2) है। मेरी समझ से, सेटिंग [cosine, none] के परिणाम समान या कम से कम वास्तव में वास्तव में [euclidean, l2] के समान होने चाहिए, लेकिन वे नहीं हैं।
वास्तव में एक अच्छा मौका है कि प्रणाली अभी भी छोटी है - या क्या मुझे वैक्टर के बारे में कुछ गलत है?
संपादित करें: मैं यह उल्लेख करना भूल गया कि वैक्टर एक कॉर्पस में दस्तावेजों से शब्द गणना पर आधारित हैं। एक क्वेरी दस्तावेज़ (जिसे मैं एक शब्द गणना वेक्टर में भी बदलता हूं) को देखते हुए, मैं अपने कॉर्पस से दस्तावेज़ ढूंढना चाहता हूं जो इसके लिए सबसे अधिक समान है।
बस उनकी यूक्लिडियन दूरी की गणना करना एक सीधा आगे का उपाय है, लेकिन जिस तरह के काम में मैं काम करता हूं, कॉशन समानता को अक्सर एक समानता संकेतक के रूप में पसंद किया जाता है, क्योंकि केवल लंबाई में भिन्नता वाले वैक्टर को अभी भी समान माना जाता है। सबसे छोटी दूरी / कोसाइन समानता वाले दस्तावेज़ को सबसे समान माना जाता है।