जैसा कि आप कहीं और देखेंगे कि tf-idf पर चर्चा की गई है, tf-idf या यहाँ तक कि (आपके प्रश्न के अनुसार) idf की गणना के लिए कोई सर्वसम्मति से सहमत एकल सूत्र नहीं है । के प्रयोजन के दो उद्देश्यों में से एक को पूरा करने के लिए है: क) शून्य से बचने के विभाजन करने के लिए , के रूप में जब कोई दस्तावेज में एक शब्द प्रकट होता है, यहां तक कि इस हालांकि एक सख्ती से "शब्दों का बैग" दृष्टिकोण में ऐसा नहीं होता है, या ख) एक शून्य वजन से बचने के लिए एक कम बाध्यता निर्धारित करने के लिए सिर्फ इसलिए कि यह सभी दस्तावेजों में दिखाई दिया।+1
मैंने वास्तव में फॉर्मूलेशन कभी नहीं देखा है , हालांकि आप एक पाठ्यपुस्तक का उल्लेख करते हैं। लेकिन इसका उद्देश्य शून्य की बजाय कम बाउंड सेट करना होगा , जैसा कि आप सही ढंग से व्याख्या करते हैं। मैंने 1 + , जो 1. की एक निचली सीमा निर्धारित करता है। सबसे अधिक इस्तेमाल किया जाने वाला गणना , जैसा कि मैनिंग, क्रिस्टोफर में है। डी, प्रभाकर राघवन, और हेनरिक श्ट्ज़ (2008) सूचना पुनर्प्राप्ति का परिचय , कैम्ब्रिज यूनिवर्सिटी प्रेस, p118 या विकिपीडिया (समान स्रोतों पर आधारित)।log(1+Nnt)log(2)log(Nnt)log(Nnt)
आपकी क्वेरी के लिए सीधे प्रासंगिक नहीं है, लेकिन ऊपरी बाउंड नहीं है , बल्कि जहां में आपके स्मूद फॉर्मूलेशन पर निर्भर करता है। यह उन शर्तों के लिए होता है जो 0 या 1 दस्तावेज़ों में दिखाई देते हैं (फिर से, इस बात पर निर्भर करता है कि क्या आप इसे शून्य दस्तावेज़ आवृत्ति के साथ परिभाषित करने के लिए साथ सुचारू हैं - यदि नहीं तो केवल एक दस्तावेज़ में प्रकट होने वाले शब्दों के लिए अधिकतम मान होता है)। IDF जब और ।∞k+log(N/s)k,s∈0,1s→∞1+nt=1N→∞