लेकिन मुझे नहीं पता कि दस्तावेजों में पाठ वर्गीकरण और विषय मॉडल के बीच अंतर क्या है
Text Classificationपर्यवेक्षित अधिगम का एक रूप है, इसलिए संभावित वर्गों के समुच्चय को पहले से ज्ञात / परिभाषित किया जाता है , और परिवर्तित नहीं होगा।
Topic Modelingएक तरह से अनअप्रूव्ड लर्निंग (क्लस्टरिंग के समान) है, इसलिए संभावित विषयों का समूह अज्ञात एप्रीओरी है । उन्हें विषय मॉडल बनाने के हिस्से के रूप में परिभाषित किया गया है। एलडीए जैसे गैर-नियतात्मक एल्गोरिथम के साथ, आपको एल्गोरिथ्म चलाने पर हर बार अलग-अलग विषय मिलेंगे।
Text classificationअक्सर पारस्परिक रूप से अनन्य कक्षाएं शामिल होती हैं - इन्हें बाल्टी के रूप में सोचें।
लेकिन इसका कोई मतलब नहीं है: सही तरह के लेबल वाले इनपुट डेटा को देखते हुए, आप गैर-पारस्परिक रूप से अनन्य बाइनरी क्लासिफायर की एक श्रृंखला निर्धारित कर सकते हैं।
Topic modelingआम तौर पर पारस्परिक रूप से अनन्य नहीं है: एक ही दस्तावेज़ में कई विषयों में इसकी संभावना वितरण हो सकता है। इसके अलावा, पदानुक्रमित विषय मॉडलिंग के तरीके भी हैं।
दस्तावेज़ों के लिए विषय मॉडल का उपयोग कर सकता हूं एक विषय की पहचान करने के लिए बाद में क्या मैं इस दस्तावेज़ के अंदर पाठ को वर्गीकृत करने के लिए वर्गीकरण का उपयोग कर सकता हूं?
यदि आप पूछ रहे हैं कि क्या आप एक विषय मॉडलिंग एल्गोरिथम द्वारा एक विषय को सौंपे गए सभी दस्तावेज ले सकते हैं और फिर उस संग्रह में एक क्लासिफायर लागू कर सकते हैं, तो हाँ, आप निश्चित रूप से ऐसा कर सकते हैं।
मुझे यकीन नहीं है कि यह बहुत समझ में आता है, हालांकि: कम से कम, आपको उस विषय की संभाव्यता वितरण के लिए एक सीमा लेनी होगी जिसके ऊपर आप अपने संग्रह में दस्तावेज़ शामिल करेंगे (आमतौर पर 0.05-0.1)।
क्या आप अपने उपयोग के मामले पर विस्तार से बता सकते हैं?
वैसे, यहां उपलब्ध जावा के लिए MALLET लाइब्रेरी का उपयोग कर विषय मॉडलिंग का एक बढ़िया ट्यूटोरियल है: टॉपिक मॉडलिंग और MALLET के साथ शुरुआत करना