दस लाख से अधिक दस्तावेजों का कोष रखें
दिए गए दस्तावेज़ के लिए वैसा ही उपयोग करना चाहते हैं जैसा कि वेक्टर अंतरिक्ष मॉडल में cosine का उपयोग करते हुए किया जाता है
इस tf-idf के रूप में लंबे दस्तावेज़ों के प्रति पूर्वाग्रह को रोकने के लिए, सभी tf को संवर्धित आवृत्ति का उपयोग करके सामान्य किया गया है :
सभी की पूर्व-गणना करें
भाजक पहले से गणना की के लिए मान लो
किसी दिए गए के लिए तो से अधिक स्कोर करने के लिए 1 लाख जरूरत
Have समानता के लिए 0.6 कोज्या की एक सीमा
मैं एक के लिए देख सकते हैं कि की एक काफी संकीर्ण सीमा है कोज्या के लिए 0.6
की एक कोज्या के लिए इसी तरह के लिए एक खोज में उदाहरण के लिए 0.6 और एक7.7631 के बाद | | d 2 | | 7.0867 से 8.8339 तक
जहांकॉशनकी दहलीज के बाहर 0.6 | | d 2 | | 0.7223 से लेकर 89.3395 तक है
यह मानक tf दस्तावेज़ के सामान्यीकरण के साथ था
यह एक बहुत देख रहा है जिसके पास कोसाइन 0.6 मैच होने का मौका नहीं है
अंत में सवाल:
एक देने के लिए और cosine> = = 0.6 की सीमा का निर्धारण कैसे किया जा सकता है | | d 2 | | एक मौका है?
जो | | d 2 | | क्या मैं सुरक्षित रूप से समाप्त कर सकता हूं?
मैं भी में पदों की संख्या पता और d 2 अगर वहाँ अवधि गिनती रेंज।
वाया प्रयोग
और | | d 2 | | < | | घ १ | | / .8
सुरक्षित लगता है, लेकिन उम्मीद है कि सीमा है जो सुरक्षित साबित हो रही है
कुछ बहुत ही अनूठे शब्दों के साथ कुछ परीक्षण मामलों को बनाया, कुछ को इतना अनोखा और कुछ को सामान्य। सुनिश्चित करें कि आप सबसे अनूठा शब्द ले सकते हैं और तुलना में उस आवृत्ति को बढ़ा सकते हैं। अंशांक (डॉट उत्पाद) ऊपर जाएगा और इसलिए || तुलना || और एक कोसाइन 1 के बहुत पास मिलेगा।
संबंधित की तरह और सवाल नहीं।
मैं समूहों में समूह दस्तावेज़ों के लिए tf-idf का उपयोग कर रहा हूं। मैं जिस ग्राहक आधार को बेच रहा हूं उसका उपयोग निकटवर्ती समूहों के पास करने के लिए किया जाता है। वहाँ मैं सबसे छोटी अवधि की गिनती के रूप में एक संबंधित दृष्टिकोण ले रहा हूं और 3x तक की गणना के खिलाफ इसका मूल्यांकन कर रहा हूं। तो 10 की एक पद गणना 10 से 30 के बीच लगती है (4-9 में पहले से ही 10 पर उनका शॉट था)। यहाँ मैं एक को याद कर सकते हैं इसे दूसरे में उठाया है। मैं 10% काम कर रहा हूं और सबसे बड़ा अनुपात 1.8 है।
इस विश्लेषण में खामियों की पहचान करें,
AN6U5 द्वारा उठाई बाहर इस विश्लेषण में एक दोष नहीं है के रूप में
यह अब एक कोज्या है अगर दस्तावेज़ भारित पर सामान्यीकृत है
भी d1⋅d2≤d1⋅d1 निष्कर्ष नहीं निकाल सकता और मैथ्यू द्वारा उठाई बाहर के रूप में
मैं कर रहा हूँ अभी भी कुछ के लिए उम्मीद मुझे देना कठिन बाध्य लेकिन लोगों को कि इस सामग्री को पता लगता है मुझे बता रहे हैं कोई एक
मैं नहीं चाहता कि सवाल तो बदलने के लिए सिर्फ इस पर ध्यान न दें चाहते
मैं कुछ विश्लेषण करना होगा और हो सकता है दस्तावेज़ सामान्यीकरण पर एक अलग प्रश्न पोस्ट
के लिए इस प्रश्न का उद्देश्य कच्चे tf पर दस्तावेज़ को सामान्यीकृत किया गया है
क्षमा करें, लेकिन मैं अभी तक अच्छे नहीं हूं कि समीकरण बनाने के लिए कभी भी मार्कअप का उपयोग किया जाता है
तो मेरे अंकन में
? d1 = sqrt (राशि (w1 x w1))
d1 dot d2 = sum (w1 X w2)
मान लें कि d1 छोटा दस्तावेज़ है,
जो सबसे अच्छा d1 डॉट d2 है जिसे हासिल किया जा सकता है, d1 dot d1 है,
यदि d1 की शादी 100 पाऊल 20 से है
और d2 की शादी 100 पाऊल 20 पेटी से है। 1
सामान्यीकृत
d1 से शादी की जाती है 1 पॉल 1/5
डी 2 शादी है 1 पॉल 1/5 पीटर 1/100
स्पष्ट रूप से शादी और पॉल में दोनों दस्तावेजों में एक ही आईडी है
सबसे अच्छा संभव d1 डॉट d2 d1 डॉट d1 है d1 के
लिए अधिकतम संभव मैच d1
cos = d1 डॉट है d1 / || d1 || || d2 ||
चौकोर दोनों तरफ
cos x cos = (d1 dot d1) X (d1 डॉट d1) / ((d1 डॉट d1) X (d2 डॉट d2)) cos X cos = (d1 dot d1) / (d2 dot d2)
वर्ग लेते हैं दोनों पक्ष की जड़
= || d1 || / || d2 ||
है || d2 || कॉस से बंधे नहीं?
अगर मैं सिर्फ उपयोग करता हूँ || d2 || > = cos || d1 || और || डी २ || <= || d1 || / क्योंकि मुझे कम्प्यूटेशनल गति की आवश्यकता है