टेक्स्ट वर्गीकरण के लिए बैग-ऑफ-वर्ड्स: क्यों न केवल TFIDF के बजाय शब्द आवृत्तियों का उपयोग किया जाए?


24

पाठ वर्गीकरण के लिए एक आम दृष्टिकोण एक 'बैग-ऑफ-वर्ड्स' से एक क्लासिफायरियर को प्रशिक्षित करना है। उपयोगकर्ता पाठ को वर्गीकृत करने के लिए लेता है और प्रत्येक वस्तु में शब्दों की आवृत्तियों को गिनाता है, जिसके बाद किसी प्रकार की ट्रिमिंग होती है जिसके परिणामस्वरूप आकार का मैट्रिक्स बना रहता है।

अक्सर, मुझे लगता है कि उपयोगकर्ता TFIDF का उपयोग करके अपने फीचर वेक्टर का निर्माण करते हैं। दूसरे शब्दों में, ऊपर उल्लिखित पाठ आवृत्तियों को कॉर्पस में शब्दों की आवृत्ति से नीचे-भारित किया जाता है। मैं देखता हूं कि मानव विश्लेषक के लिए दिए गए दस्तावेज़ के 'सबसे अलग' शब्दों को चुनने के लिए TFIDF उपयोगी क्यों होगा। लेकिन मानक पर्यवेक्षित एमएल तकनीकों का उपयोग करते हुए पाठ वर्गीकरण के मामले में, कॉर्पस में दस्तावेजों की आवृत्ति से डाउनवेटिंग क्यों परेशान करती है? क्या सीखने वाला स्वयं प्रत्येक शब्द / शब्दों के संयोजन को महत्व देने का निर्णय नहीं करेगा? मैं आपके विचारों के लिए आभारी रहूंगा कि IDF किस मूल्य पर, यदि कोई हो।

जवाबों:


29

इसका उत्तर बहुत सीधा है: टीएफ-आईडीएफ कुछ पर्यवेक्षित तरीकों के साथ संयुक्त होने पर सरल शब्द आवृत्तियों की तुलना में बेहतर परिणाम प्राप्त कर सकता है।

दस्तावेजों के बीच समानता के माप के रूप में विहित उदाहरण कोसाइन समानता का उपयोग कर रहा है। दस्तावेजों के TF-IDF वेक्टर प्रतिनिधित्व के बीच के कोण के कोसाइन को लेना अकेले TF की तुलना में उच्च सटीकता के साथ प्रासंगिक समान दस्तावेजों को सफलतापूर्वक प्राप्त कर सकता है।

ऐसा इसलिए है क्योंकि आईडीएफ आम शब्दों को दिए गए वजन को कम करता है, और एक दस्तावेज़ में असामान्य शब्दों को उजागर करता है। अधिकांश समाचार लेख शुतुरमुर्गों के बारे में नहीं हैं, इसलिए "शुतुरमुर्ग" वाला एक समाचार लेख असामान्य है, और हम यह जानना चाहेंगे कि जब इसी तरह के दस्तावेज खोजने की कोशिश की जा रही हो।

लेकिन मानक पर्यवेक्षित एमएल तकनीकों का उपयोग करते हुए पाठ वर्गीकरण के मामले में, कॉर्पस में दस्तावेजों की आवृत्ति से डाउनवेटिंग क्यों परेशान करती है? क्या सीखने वाला स्वयं प्रत्येक शब्द / शब्दों के संयोजन को महत्व देने का निर्णय नहीं करेगा?

एक्सyएक्सyy), तब हमने अपने आप को, और हमारे खराब, अति-कार्य वाले कंप्यूटरों पर कार्य को बहुत आसान बना दिया है! मुझे लगता है कि यह क्षेत्र का एक सराहनीय घटक है - लोग एल्गोरिदम का अध्ययन और विचार करने में बहुत समय बिताते हैं क्योंकि वे डोमेन-स्वतंत्र हैं, लेकिन आपके डेटा और जिस समस्या को हल करने का प्रयास कर रहे हैं, उसके बारे में अधिक जानने से आप पथ का सुझाव दे सकते हैं। बेहतर डेटा संग्रह या डेटा प्रतिनिधित्व जो कार्य को इतना आसान बना देता है - और इतना आसान है कि अलंकृत परिष्कार का एक मॉडल अनावश्यक है।

यहां कई संसाधन पाए जा सकते हैं , जिन्हें मैं सुविधा के लिए पुन: पेश करता हूं।

  • के स्पार्क जोन्स। "शब्द विशिष्टता की एक सांख्यिकीय व्याख्या और पुनर्प्राप्ति में इसके आवेदन"। दस्तावेज़ का जर्नल, 28 (1)। 1972।

  • जी। सैलटन और एडवर्ड फॉक्स और वू हैरी वू। "विस्तारित बूलियन सूचना पुनर्प्राप्ति"। एसीएम, 26 (11) के संचार। 1983।

  • जी। सैलटन और एमजे मैकगिल। "आधुनिक सूचना पुनःप्राप्ति के लिए परिचय"। 1983

  • जी। सैलटन और सी। बकले। "स्वचालित पाठ पुनर्प्राप्ति में शब्द-भार दृष्टिकोण"। सूचना प्रसंस्करण और प्रबंधन, 24 (5)। 1988।

  • एच। वू और आर। लुक और के। वोंग और के। क्वोक। "प्रासंगिकता निर्णय लेने के रूप में TF-IDF शब्द भार की व्याख्या"। सूचना प्रणाली, 26 (3) पर एसीएम लेनदेन। 2008।


नोट @ user777 के लिए धन्यवाद! इसकी प्रशंसा करना। मैं उन लेखों पर एक नज़र डाल रहा हूं। क्या एल्गोरिदम के सामान्य वर्ग हैं जिन्हें हम TFFF बनाम सिर्फ TF से अधिमानतः लाभ की उम्मीद करते हैं?
shf8888

@ shf8888 मुझे यकीन नहीं है कि अगर कोई सामान्य वर्ग है तो बेहतर है। यह संभव है! जहाँ तक मुझे जानकारी है, एनएलपी कार्य पर काम करने वाले किसी व्यक्ति का पहला प्रतिक्षेप अधिक जटिल मॉडल पर प्रगति करने से पहले TF और IDF-IDF को आधारभूत विधियों के रूप में आज़माना है। इस तरह, आप तेजी से जटिल मॉडल का उपयोग करके बढ़े हुए प्रयास के लिए खरीदे गए प्रदर्शन को बढ़ा सकते हैं।
साइकोरैक्स का कहना है कि मोनिका

बहुत बहुत धन्यवाद! खैर, जवाब है कि "आनुभविक रूप से TFIDF कुछ एल्गोरिदम के साथ TF से अधिक प्रदर्शन प्रदान कर सकता है" (यदि आप मेरे एक वाक्य सारांश पर आपत्ति नहीं करते हैं) निश्चित रूप से मेरे दृष्टिकोण से अच्छा है। संदर्भ के लिए धन्यवाद।
shf8888

2

ठेठ मामले में, आप अपने दस्तावेज़ों में लेबल किए गए दस्तावेज़ों की तुलना में कई अधिक दस्तावेज़ रख सकते हैं। इसका मतलब है कि पूरे कॉर्पस का उपयोग करते समय आईडीएफ की गणना अधिक सटीक और पूरी तरह से की जा सकती है।

अगला उस मामले पर विचार करें जहां आप अभी तक अपने हाथों को प्राप्त कर सकते हैं वह सब लेबल है या लेबल किया गया सबसेट "बहुत बड़ा" है। इस मामले में प्रशिक्षण के लिए आवश्यक पुनरावृत्तियों की संख्या संभवतः TfIDF का उपयोग करते समय छोटी हो सकती है क्योंकि सीखने के एल्गोरिथ्म को उतना सीखने की आवश्यकता नहीं होगी।

अंत में, इस मामले में, आप केवल tf, या tf और idf अलग से प्रदान कर सकते हैं (या tfidf को भी शामिल कर सकते हैं)। मुझे लगता है कि यह संभवतः बेहतर परिणाम उत्पन्न कर सकता है, उदाहरण के लिए, जब एक परिष्कृत कर्नेल फ़ंक्शन का उपयोग किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.