मैं जिस समस्या से निपट रहा हूं, वह छोटे ग्रंथों को कई वर्गों में वर्गीकृत कर रही है। मेरा वर्तमान तरीका tf-idf वेटेड टर्म फ्रिक्वेंसी का उपयोग करना है और एक सरल रैखिक क्लासिफायरियर (लॉजिस्टिक रिग्रेशन) सीखना है। यह उचित रूप से अच्छी तरह से काम करता है (परीक्षण सेट पर लगभग 90% मैक्रो एफ -1, प्रशिक्षण सेट पर लगभग 100%)। एक बड़ी समस्या अनदेखी शब्द / एन-ग्राम हैं।
मैं अन्य सुविधाओं को जोड़कर क्लासिफायर को बेहतर बनाने की कोशिश कर रहा हूं, उदाहरण के लिए एक निश्चित आकार के वेक्टर का वितरण समानताओं का उपयोग करके किया गया है (उदाहरण के लिए word2vec द्वारा गणना की गई) या उदाहरणों की अन्य श्रेणीगत विशेषताएं। मेरा विचार केवल शब्दों के बैग से विरल इनपुट सुविधाओं में सुविधाओं को जोड़ना था। हालांकि, यह परीक्षण और प्रशिक्षण सेट पर खराब प्रदर्शन का परिणाम है। स्वयं द्वारा अतिरिक्त सुविधाएँ टेस्ट सेट पर लगभग 80% F-1 देती हैं, इसलिए वे कचरा नहीं हैं। सुविधाओं को स्केल करने से भी मदद नहीं मिली। मेरी वर्तमान सोच यह है कि इस तरह के फीचर शब्द सुविधाओं के (विरल) बैग के साथ अच्छी तरह से नहीं मिलते हैं।
तो सवाल यह है: अतिरिक्त सुविधाओं को संभालने से अतिरिक्त जानकारी मिलती है, उन्हें शामिल करने का सबसे अच्छा तरीका क्या है? क्या अलग-अलग क्लासिफायर को प्रशिक्षित किया जा सकता है और उन्हें किसी तरह के कलाकारों के काम में जोड़ा जा सकता है (यह शायद यह दोष होगा कि विभिन्न क्लासिफायर के फीचर्स के बीच कोई इंटरैक्शन कैप्चर नहीं किया जा सकता है)? क्या अन्य जटिल मॉडल हैं जिन पर मुझे विचार करना चाहिए?