मैं 80 परतों के साथ एक word2vec जैसे प्रतिनिधित्व का उपयोग करते हुए 128 छिपी इकाइयों के साथ एक परत LSTM का उपयोग कर भावना भविष्यवाणी के लिए 15000 ट्वीट्स मॉडलिंग कर रहा हूं। मुझे 1 युग के बाद एक वंश सटीकता (यादृच्छिक = 20% के साथ 38%) मिलती है। अधिक प्रशिक्षण सत्यापन सटीकता को कम करना शुरू कर देता है क्योंकि प्रशिक्षण सटीकता चढ़ाई शुरू होती है - ओवरफिटिंग का एक स्पष्ट संकेत।
इसलिए मैं नियमित करने के तरीकों के बारे में सोच रहा हूं। मैं छिपी हुई इकाइयों की संख्या को कम नहीं करना चाहता (128 पहले से ही थोड़ा कम लगता है)। मैं वर्तमान में 50% प्रायिकता के साथ ड्रॉपआउट का उपयोग करता हूं, लेकिन यह संभवत: बढ़ाया जा सकता है। ऑप्टिमाइज़र, Keras ( http://keras.io/optimizers/#adam ) के लिए डिफ़ॉल्ट मापदंडों के साथ एडम है ।
मेरे डेटासेट पर इस मॉडल के लिए ओवरफिटिंग को कम करने के कुछ प्रभावी तरीके क्या हैं?