लेकिन मुझे नहीं पता कि दस्तावेजों में पाठ वर्गीकरण और विषय मॉडल के बीच अंतर क्या है
Text Classification
पर्यवेक्षित अधिगम का एक रूप है, इसलिए संभावित वर्गों के समुच्चय को पहले से ज्ञात / परिभाषित किया जाता है , और परिवर्तित नहीं होगा।
Topic Modeling
एक तरह से अनअप्रूव्ड लर्निंग (क्लस्टरिंग के समान) है, इसलिए संभावित विषयों का समूह अज्ञात एप्रीओरी है । उन्हें विषय मॉडल बनाने के हिस्से के रूप में परिभाषित किया गया है। एलडीए जैसे गैर-नियतात्मक एल्गोरिथम के साथ, आपको एल्गोरिथ्म चलाने पर हर बार अलग-अलग विषय मिलेंगे।
Text classification
अक्सर पारस्परिक रूप से अनन्य कक्षाएं शामिल होती हैं - इन्हें बाल्टी के रूप में सोचें।
लेकिन इसका कोई मतलब नहीं है: सही तरह के लेबल वाले इनपुट डेटा को देखते हुए, आप गैर-पारस्परिक रूप से अनन्य बाइनरी क्लासिफायर की एक श्रृंखला निर्धारित कर सकते हैं।
Topic modeling
आम तौर पर पारस्परिक रूप से अनन्य नहीं है: एक ही दस्तावेज़ में कई विषयों में इसकी संभावना वितरण हो सकता है। इसके अलावा, पदानुक्रमित विषय मॉडलिंग के तरीके भी हैं।
दस्तावेज़ों के लिए विषय मॉडल का उपयोग कर सकता हूं एक विषय की पहचान करने के लिए बाद में क्या मैं इस दस्तावेज़ के अंदर पाठ को वर्गीकृत करने के लिए वर्गीकरण का उपयोग कर सकता हूं?
यदि आप पूछ रहे हैं कि क्या आप एक विषय मॉडलिंग एल्गोरिथम द्वारा एक विषय को सौंपे गए सभी दस्तावेज ले सकते हैं और फिर उस संग्रह में एक क्लासिफायर लागू कर सकते हैं, तो हाँ, आप निश्चित रूप से ऐसा कर सकते हैं।
मुझे यकीन नहीं है कि यह बहुत समझ में आता है, हालांकि: कम से कम, आपको उस विषय की संभाव्यता वितरण के लिए एक सीमा लेनी होगी जिसके ऊपर आप अपने संग्रह में दस्तावेज़ शामिल करेंगे (आमतौर पर 0.05-0.1)।
क्या आप अपने उपयोग के मामले पर विस्तार से बता सकते हैं?
वैसे, यहां उपलब्ध जावा के लिए MALLET लाइब्रेरी का उपयोग कर विषय मॉडलिंग का एक बढ़िया ट्यूटोरियल है: टॉपिक मॉडलिंग और MALLET के साथ शुरुआत करना