उलटा दस्तावेज़ आवृत्ति में एक क्यों जोड़ें?

मेरी पाठ्यपुस्तक आईडी को रूप में सूचीबद्ध करती है जहां $log(1+\frac{N}{n_t})$

$N$ : दस्तावेजों की संख्या
$n_t$ : टर्म वाले दस्तावेजों की संख्या $t$

विकिपीडिया इस सूत्र को वास्तविक संस्करण के रूप में सूचीबद्ध करता है । जो मैं समझता हूं: यह से होता है जो सहज ज्ञान युक्त लगता है। लेकिन से चला जाता है के लिए जो इतनी अजीब लगता है ... मैं भाषा मॉडलिंग से चौरसाई बारे में थोड़ा जानना लेकिन वहाँ आप अंश में कुछ जोड़ना होगा साथ ही हर में क्योंकि आप संभावना द्रव्यमान के बारे में चिंतित हैं। लेकिन सिर्फ जोड़ने से मुझे कोई मतलब नहीं है। हम यहां क्या हासिल करने की कोशिश कर रहे हैं? $log(\frac{N}{n_t})$ $log(\frac{N}{N})=0$ $\infty$
$log(1+\frac{N}{n_t})$ $log(1+1)$ $\infty$
$1$

text-mining natural-language smoothing

— user2740
स्रोत

संबंधित, लेकिन डुप्लिकेट नहीं: आंकड़े.stackexchange.com/questions/152182/…

— कहना है कि मोनिका

सही

\log (\frac{N}{(1 + n_{t})})

$\log(\frac N {(1+n_{t})})$

— ashishpatel.co.in

जैसा कि आप कहीं और देखेंगे कि tf-idf पर चर्चा की गई है, tf-idf या यहाँ तक कि (आपके प्रश्न के अनुसार) idf की गणना के लिए कोई सर्वसम्मति से सहमत एकल सूत्र नहीं है । के प्रयोजन के दो उद्देश्यों में से एक को पूरा करने के लिए है: क) शून्य से बचने के विभाजन करने के लिए , के रूप में जब कोई दस्तावेज में एक शब्द प्रकट होता है, यहां तक कि इस हालांकि एक सख्ती से "शब्दों का बैग" दृष्टिकोण में ऐसा नहीं होता है, या ख) एक शून्य वजन से बचने के लिए एक कम बाध्यता निर्धारित करने के लिए सिर्फ इसलिए कि यह सभी दस्तावेजों में दिखाई दिया। $+ 1$

मैंने वास्तव में फॉर्मूलेशन कभी नहीं देखा है , हालांकि आप एक पाठ्यपुस्तक का उल्लेख करते हैं। लेकिन इसका उद्देश्य शून्य की बजाय कम बाउंड सेट करना होगा , जैसा कि आप सही ढंग से व्याख्या करते हैं। मैंने 1 + , जो 1. की एक निचली सीमा निर्धारित करता है। सबसे अधिक इस्तेमाल किया जाने वाला गणना , जैसा कि मैनिंग, क्रिस्टोफर में है। डी, प्रभाकर राघवन, और हेनरिक श्ट्ज़ (2008) सूचना पुनर्प्राप्ति का परिचय , कैम्ब्रिज यूनिवर्सिटी प्रेस, p118 या विकिपीडिया (समान स्रोतों पर आधारित)। $log(1+\frac{N}{n_t})$ $log(2)$ $log(\frac{N}{n_t})$ $log(\frac{N}{n_t})$

आपकी क्वेरी के लिए सीधे प्रासंगिक नहीं है, लेकिन ऊपरी बाउंड नहीं है , बल्कि जहां में आपके स्मूद फॉर्मूलेशन पर निर्भर करता है। यह उन शर्तों के लिए होता है जो 0 या 1 दस्तावेज़ों में दिखाई देते हैं (फिर से, इस बात पर निर्भर करता है कि क्या आप इसे शून्य दस्तावेज़ आवृत्ति के साथ परिभाषित करने के लिए साथ सुचारू हैं - यदि नहीं तो केवल एक दस्तावेज़ में प्रकट होने वाले शब्दों के लिए अधिकतम मान होता है)। IDF जब और । $\infty$ $k + log(N/s)$ $k, s \in {0, 1}$ $s$ $\rightarrow \infty$ $1 + n_t=1$ $N \rightarrow \infty$

— केन बेनोइट
स्रोत