पाठ वर्गीकरण और विषय मॉडल के बीच अंतर क्या है?

20

मैं मशीन लर्निंग में क्लस्टरिंग और वर्गीकरण के बीच अंतर जानता हूं, लेकिन मैं दस्तावेजों के लिए टेक्स्ट वर्गीकरण और विषय मॉडलिंग के बीच अंतर को नहीं समझता। क्या मैं किसी विषय की पहचान करने के लिए दस्तावेजों पर विषय मॉडलिंग का उपयोग कर सकता हूं? क्या मैं इन दस्तावेजों के अंदर पाठ को वर्गीकृत करने के लिए वर्गीकरण विधियों का उपयोग कर सकता हूं?

classification text-mining topic-model

— अली
स्रोत

28

पाठ वर्गीकरण

मैं आपको दस्तावेजों का एक गुच्छा देता हूं, जिनमें से प्रत्येक में एक लेबल संलग्न है। मैं आपको यह जानने के लिए कहता हूं कि आपको क्यों लगता है कि दस्तावेजों की सामग्री को उनके शब्दों के आधार पर ये लेबल दिए गए हैं। फिर मैं आपको नए दस्तावेज देता हूं और पूछता हूं कि आपको क्या लगता है कि प्रत्येक के लिए लेबल क्या होना चाहिए। लेबलों का मेरे लिए अर्थ है, जरूरी नहीं कि आप।

टॉपिक मॉडलिंग

मैं आपको दस्तावेजों का एक गुच्छा देता हूं, बिना लेबल के। मैं आपको यह बताने के लिए कहता हूं कि दस्तावेजों में वे शब्द क्यों हैं जो वे कुछ विषयों की पहचान करके करते हैं जो प्रत्येक "के बारे में" है। आप मुझे विषय बताएं, यह बताकर कि प्रत्येक दस्तावेज़ में प्रत्येक का कितना हिस्सा है, और मैं तय करता हूं कि विषयों का क्या मतलब है "यदि" कुछ भी।

आपको "एक विषय की पहचान" या "पाठ का वर्गीकरण" करके मुझे स्पष्ट करना होगा।

— सीन ओवेन
स्रोत

10

लेकिन मुझे नहीं पता कि दस्तावेजों में पाठ वर्गीकरण और विषय मॉडल के बीच अंतर क्या है

Text Classificationपर्यवेक्षित अधिगम का एक रूप है, इसलिए संभावित वर्गों के समुच्चय को पहले से ज्ञात / परिभाषित किया जाता है , और परिवर्तित नहीं होगा।

Topic Modelingएक तरह से अनअप्रूव्ड लर्निंग (क्लस्टरिंग के समान) है, इसलिए संभावित विषयों का समूह अज्ञात एप्रीओरी है । उन्हें विषय मॉडल बनाने के हिस्से के रूप में परिभाषित किया गया है। एलडीए जैसे गैर-नियतात्मक एल्गोरिथम के साथ, आपको एल्गोरिथ्म चलाने पर हर बार अलग-अलग विषय मिलेंगे।

Text classificationअक्सर पारस्परिक रूप से अनन्य कक्षाएं शामिल होती हैं - इन्हें बाल्टी के रूप में सोचें।
लेकिन इसका कोई मतलब नहीं है: सही तरह के लेबल वाले इनपुट डेटा को देखते हुए, आप गैर-पारस्परिक रूप से अनन्य बाइनरी क्लासिफायर की एक श्रृंखला निर्धारित कर सकते हैं।

Topic modelingआम तौर पर पारस्परिक रूप से अनन्य नहीं है: एक ही दस्तावेज़ में कई विषयों में इसकी संभावना वितरण हो सकता है। इसके अलावा, पदानुक्रमित विषय मॉडलिंग के तरीके भी हैं।

दस्तावेज़ों के लिए विषय मॉडल का उपयोग कर सकता हूं एक विषय की पहचान करने के लिए बाद में क्या मैं इस दस्तावेज़ के अंदर पाठ को वर्गीकृत करने के लिए वर्गीकरण का उपयोग कर सकता हूं?

यदि आप पूछ रहे हैं कि क्या आप एक विषय मॉडलिंग एल्गोरिथम द्वारा एक विषय को सौंपे गए सभी दस्तावेज ले सकते हैं और फिर उस संग्रह में एक क्लासिफायर लागू कर सकते हैं, तो हाँ, आप निश्चित रूप से ऐसा कर सकते हैं।

मुझे यकीन नहीं है कि यह बहुत समझ में आता है, हालांकि: कम से कम, आपको उस विषय की संभाव्यता वितरण के लिए एक सीमा लेनी होगी जिसके ऊपर आप अपने संग्रह में दस्तावेज़ शामिल करेंगे (आमतौर पर 0.05-0.1)।

क्या आप अपने उपयोग के मामले पर विस्तार से बता सकते हैं?

वैसे, यहां उपलब्ध जावा के लिए MALLET लाइब्रेरी का उपयोग कर विषय मॉडलिंग का एक बढ़िया ट्यूटोरियल है: टॉपिक मॉडलिंग और MALLET के साथ शुरुआत करना

— चार्ली ग्रीनबैकर
स्रोत

4

टॉपिक मॉडल आमतौर पर अनसुनी होते हैं । "पर्यवेक्षित विषय मॉडल" भी हैं; लेकिन फिर भी वे एक वर्ग के भीतर विषयों को मॉडल करने की कोशिश करते हैं ।

उदाहरण के लिए आपके पास एक वर्ग "फुटबॉल" हो सकता है, लेकिन इस वर्ग के अंदर ऐसे विषय हो सकते हैं जो विशेष मैचों या टीमों से संबंधित हों।

विषयों के साथ चुनौती यह है कि वे समय के साथ बदलते हैं; ऊपर दिए गए उदाहरणों पर विचार करें। ऐसे विषय उभर सकते हैं, और फिर से गायब हो सकते हैं।

— एरच शूबर्ट
स्रोत