उलटा दस्तावेज़ आवृत्ति में एक क्यों जोड़ें?


9

मेरी पाठ्यपुस्तक आईडी को रूप में सूचीबद्ध करती है जहांlog(1+Nnt)

  • N : दस्तावेजों की संख्या
  • nt : टर्म वाले दस्तावेजों की संख्याt

विकिपीडिया इस सूत्र को वास्तविक संस्करण के रूप में सूचीबद्ध करता है । जो मैं समझता हूं: यह से होता है जो सहज ज्ञान युक्त लगता है। लेकिन से चला जाता है के लिए जो इतनी अजीब लगता है ... मैं भाषा मॉडलिंग से चौरसाई बारे में थोड़ा जानना लेकिन वहाँ आप अंश में कुछ जोड़ना होगा साथ ही हर में क्योंकि आप संभावना द्रव्यमान के बारे में चिंतित हैं। लेकिन सिर्फ जोड़ने से मुझे कोई मतलब नहीं है। हम यहां क्या हासिल करने की कोशिश कर रहे हैं?log(Nnt)log(NN)=0
log(1+Nnt)log(1+1)
1


संबंधित, लेकिन डुप्लिकेट नहीं: आंकड़े.stackexchange.com/questions/152182/…
कहना है कि मोनिका

सही
log(N(1+nt))
ashishpatel.co.in

जवाबों:


7

जैसा कि आप कहीं और देखेंगे कि tf-idf पर चर्चा की गई है, tf-idf या यहाँ तक कि (आपके प्रश्न के अनुसार) idf की गणना के लिए कोई सर्वसम्मति से सहमत एकल सूत्र नहीं है । के प्रयोजन के दो उद्देश्यों में से एक को पूरा करने के लिए है: क) शून्य से बचने के विभाजन करने के लिए , के रूप में जब कोई दस्तावेज में एक शब्द प्रकट होता है, यहां तक कि इस हालांकि एक सख्ती से "शब्दों का बैग" दृष्टिकोण में ऐसा नहीं होता है, या ख) एक शून्य वजन से बचने के लिए एक कम बाध्यता निर्धारित करने के लिए सिर्फ इसलिए कि यह सभी दस्तावेजों में दिखाई दिया।+1

मैंने वास्तव में फॉर्मूलेशन कभी नहीं देखा है , हालांकि आप एक पाठ्यपुस्तक का उल्लेख करते हैं। लेकिन इसका उद्देश्य शून्य की बजाय कम बाउंड सेट करना होगा , जैसा कि आप सही ढंग से व्याख्या करते हैं। मैंने 1 + , जो 1. की एक निचली सीमा निर्धारित करता है। सबसे अधिक इस्तेमाल किया जाने वाला गणना , जैसा कि मैनिंग, क्रिस्टोफर में है। डी, प्रभाकर राघवन, और हेनरिक श्ट्ज़ (2008) सूचना पुनर्प्राप्ति का परिचय , कैम्ब्रिज यूनिवर्सिटी प्रेस, p118 या विकिपीडिया (समान स्रोतों पर आधारित)।log(1+Nnt)log(2)log(Nnt)log(Nnt)

आपकी क्वेरी के लिए सीधे प्रासंगिक नहीं है, लेकिन ऊपरी बाउंड नहीं है , बल्कि जहां में आपके स्मूद फॉर्मूलेशन पर निर्भर करता है। यह उन शर्तों के लिए होता है जो 0 या 1 दस्तावेज़ों में दिखाई देते हैं (फिर से, इस बात पर निर्भर करता है कि क्या आप इसे शून्य दस्तावेज़ आवृत्ति के साथ परिभाषित करने के लिए साथ सुचारू हैं - यदि नहीं तो केवल एक दस्तावेज़ में प्रकट होने वाले शब्दों के लिए अधिकतम मान होता है)। IDF जब और ।k+log(N/s)k,s0,1s1+nt=1N

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.