इसका उत्तर बहुत सीधा है: टीएफ-आईडीएफ कुछ पर्यवेक्षित तरीकों के साथ संयुक्त होने पर सरल शब्द आवृत्तियों की तुलना में बेहतर परिणाम प्राप्त कर सकता है।
दस्तावेजों के बीच समानता के माप के रूप में विहित उदाहरण कोसाइन समानता का उपयोग कर रहा है। दस्तावेजों के TF-IDF वेक्टर प्रतिनिधित्व के बीच के कोण के कोसाइन को लेना अकेले TF की तुलना में उच्च सटीकता के साथ प्रासंगिक समान दस्तावेजों को सफलतापूर्वक प्राप्त कर सकता है।
ऐसा इसलिए है क्योंकि आईडीएफ आम शब्दों को दिए गए वजन को कम करता है, और एक दस्तावेज़ में असामान्य शब्दों को उजागर करता है। अधिकांश समाचार लेख शुतुरमुर्गों के बारे में नहीं हैं, इसलिए "शुतुरमुर्ग" वाला एक समाचार लेख असामान्य है, और हम यह जानना चाहेंगे कि जब इसी तरह के दस्तावेज खोजने की कोशिश की जा रही हो।
लेकिन मानक पर्यवेक्षित एमएल तकनीकों का उपयोग करते हुए पाठ वर्गीकरण के मामले में, कॉर्पस में दस्तावेजों की आवृत्ति से डाउनवेटिंग क्यों परेशान करती है? क्या सीखने वाला स्वयं प्रत्येक शब्द / शब्दों के संयोजन को महत्व देने का निर्णय नहीं करेगा?
एक्सyएक्सyy), तब हमने अपने आप को, और हमारे खराब, अति-कार्य वाले कंप्यूटरों पर कार्य को बहुत आसान बना दिया है! मुझे लगता है कि यह क्षेत्र का एक सराहनीय घटक है - लोग एल्गोरिदम का अध्ययन और विचार करने में बहुत समय बिताते हैं क्योंकि वे डोमेन-स्वतंत्र हैं, लेकिन आपके डेटा और जिस समस्या को हल करने का प्रयास कर रहे हैं, उसके बारे में अधिक जानने से आप पथ का सुझाव दे सकते हैं। बेहतर डेटा संग्रह या डेटा प्रतिनिधित्व जो कार्य को इतना आसान बना देता है - और इतना आसान है कि अलंकृत परिष्कार का एक मॉडल अनावश्यक है।
यहां कई संसाधन पाए जा सकते हैं , जिन्हें मैं सुविधा के लिए पुन: पेश करता हूं।
के स्पार्क जोन्स। "शब्द विशिष्टता की एक सांख्यिकीय व्याख्या और पुनर्प्राप्ति में इसके आवेदन"। दस्तावेज़ का जर्नल, 28 (1)। 1972।
जी। सैलटन और एडवर्ड फॉक्स और वू हैरी वू। "विस्तारित बूलियन सूचना पुनर्प्राप्ति"। एसीएम, 26 (11) के संचार। 1983।
जी। सैलटन और एमजे मैकगिल। "आधुनिक सूचना पुनःप्राप्ति के लिए परिचय"। 1983
जी। सैलटन और सी। बकले। "स्वचालित पाठ पुनर्प्राप्ति में शब्द-भार दृष्टिकोण"। सूचना प्रसंस्करण और प्रबंधन, 24 (5)। 1988।
एच। वू और आर। लुक और के। वोंग और के। क्वोक। "प्रासंगिकता निर्णय लेने के रूप में TF-IDF शब्द भार की व्याख्या"। सूचना प्रणाली, 26 (3) पर एसीएम लेनदेन। 2008।