TF-IDF लघुगणक में लघुगणक के उपयोग को समझना


10

मैं पढ़ रहा था:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

लेकिन मुझे ठीक से समझ में नहीं आ रहा है कि फार्मूला का निर्माण इस तरह से क्यों किया गया।

मैं क्या समझता हूँ:

iDF को कुछ स्तरों पर मापना चाहिए कि प्रत्येक दस्तावेज़ में S शब्द कितनी बार दिखाई देता है, मूल्य में कमी होने के कारण शब्द अधिक बार प्रकट होता है।

उस दृष्टिकोण से

iDF(S)=# of Documents# of Documents containing S

इसके अलावा अवधि आवृत्ति के रूप में वर्णित किया जा सकता है

tf(S,D)=# of Occurrences of S in document D# maximum number of occurrences for any string Q in document D

तो फिर उपाय

iDF(S)×tf(S,D)

किसी तरह से यह निर्धारित किया जाता है कि किसी दिए गए दस्तावेज़ में कोई शब्द कितनी बार दिखाई देता है, और यह शब्द दस्तावेजों के सेट पर कितना अनूठा है।

जो मुझे समझ नहीं आ रहा है

लेकिन जो सूत्र दिया गया है वह इसका वर्णन करता है

(log(iDF(S)))(12+log(12tf(S,D)))

मैं परिभाषा में वर्णित लघुगणक की आवश्यकता को समझना चाहता हूं। जैसे, वे वहाँ क्यों हैं? वे किस पहलू पर जोर देते हैं?

जवाबों:


9

इस पहलू पर जोर दिया गया है कि किसी शब्द या दस्तावेज़ की प्रासंगिकता शब्द (या दस्तावेज़) आवृत्ति के साथ आनुपातिक रूप से नहीं बढ़ती है। एक उप-रैखिक फ़ंक्शन का उपयोग करना इसलिए इस प्रभाव को कम करने में मदद करता है। बहुत बड़े या बहुत छोटे मूल्यों (जैसे बहुत दुर्लभ शब्दों) के प्रभाव को भी बढ़ाया जाता है। अंत में, जैसा कि अधिकांश लोग सहजता से अनुभव करते हैं कि लघुगणक के उपयोग से स्कोरिंग फ़ंक्शंस कुछ हद तक एडिटिव होते हैं, से अलग स्वतंत्र शब्दों की संभावना को अधिक तरह देखेंगे ।लॉग ( P ( A , B ) ) = लॉग ( P ( A ) ) + लॉग ( P ( B ) )P(A,B)=P(A)P(B)log(P(A,B))=log(P(A))+log(P(B))

जैसा कि विकिपीडिया लेख आपको लिंक करता है, टीएफ-आईडीएफ का औचित्य बताता है कि यह अभी भी अच्छी तरह से स्थापित नहीं है; यह एक ऐसा अनुमान है जो हम कठोर बनाना चाहते हैं, न कि एक कठोर अवधारणा जिसे हम वास्तविक दुनिया में स्थानांतरित करना चाहते हैं। जैसा कि @ Anony-Mousse द्वारा इस मामले पर एक बहुत अच्छी तरह से पढ़ा गया है, रॉबर्टसन के अंडरस्टैंडिंग इनवॉइस डॉक्यूमेंट फ्रीक्वेंसी: IDF के लिए सैद्धांतिक तर्कों पर बताया गया है । यह पूरे ढांचे का एक व्यापक अवलोकन देता है और खोज शब्दों की प्रासंगिकता के लिए TF-IDF कार्यप्रणाली को आधार बनाने का प्रयास करता है।


4
TF-IDF का कुछ औचित्य "सूचना पुनर्प्राप्ति हेयूरिस्टिक्स का एक औपचारिक अध्ययन" में पाया जा सकता है। 2004, फेंग, हुई एट अल ( पीडीएफ ) द्वारा।
एलेक्सी ग्रिगोरेव

3
मुझे लगता है कि यह टीएफ-आईडीएफ औचित्य के लिए बेहतर संदर्भ है: रॉबर्टसन, एस (2004)। "उलटा दस्तावेज़ आवृत्ति को समझना: आईडीएफ के लिए सैद्धांतिक तर्क पर"। प्रलेखन 60 की पत्रिका (5): 503-520।
क्विट है - एनी-मौस जूल

आप के लिए धन्यवाद टिप्पणी सज्जनों (और सही करने के लिए विशेष धन्यवाद एलेक्सी \log, मैं लगातार उन्हें भूल जाता हूं); दोनों को +1। मैंने रॉबर्टसन पेपर को देखा है और इसे जोड़ने पर विचार किया है; यह वास्तव में अच्छा है, मैं इसे मुख्य शरीर में जोड़ूंगा।
us --r11852


मैं यह जानना चाहता हूं कि "डॉक्यूमेंट डी में किसी भी स्ट्रिंग क्यू के लिए अधिकतम संख्या" क्यों होती है number of occurrences for all strings in document D। हम सभी शब्दों की गिनती के बजाय सबसे सामान्य शब्द की गिनती क्यों चाहते हैं?
Xeoncross
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.