छोटे डेटासेट पर LSTM के ओवरफिटिंग को रोकना


13

मैं 80 परतों के साथ एक word2vec जैसे प्रतिनिधित्व का उपयोग करते हुए 128 छिपी इकाइयों के साथ एक परत LSTM का उपयोग कर भावना भविष्यवाणी के लिए 15000 ट्वीट्स मॉडलिंग कर रहा हूं। मुझे 1 युग के बाद एक वंश सटीकता (यादृच्छिक = 20% के साथ 38%) मिलती है। अधिक प्रशिक्षण सत्यापन सटीकता को कम करना शुरू कर देता है क्योंकि प्रशिक्षण सटीकता चढ़ाई शुरू होती है - ओवरफिटिंग का एक स्पष्ट संकेत।

इसलिए मैं नियमित करने के तरीकों के बारे में सोच रहा हूं। मैं छिपी हुई इकाइयों की संख्या को कम नहीं करना चाहता (128 पहले से ही थोड़ा कम लगता है)। मैं वर्तमान में 50% प्रायिकता के साथ ड्रॉपआउट का उपयोग करता हूं, लेकिन यह संभवत: बढ़ाया जा सकता है। ऑप्टिमाइज़र, Keras ( http://keras.io/optimizers/#adam ) के लिए डिफ़ॉल्ट मापदंडों के साथ एडम है ।

मेरे डेटासेट पर इस मॉडल के लिए ओवरफिटिंग को कम करने के कुछ प्रभावी तरीके क्या हैं?


मुझे ठीक वैसी ही समस्या हो रही है। आपने अपने LSTM को नियमित करने का प्रबंधन आखिर कैसे किया? मेरे LSTM की सत्यापन सटीकता 41% है। मेरा इनपुट आकार (200) है, और मेरे पास 64 इकाइयों के साथ 1 एलएसटीएम परत है, इसके बाद 0.4 ड्रॉपआउट के साथ 2 घने परतें हैं।
निर्वाण अंजीबाग

जवाबों:


8

तुम कोशिश कर सकते हो:

  • छिपी हुई इकाइयों की संख्या कम करें, मुझे पता है कि आपने कहा था कि यह पहले से ही कम लग रहा है, लेकिन यह देखते हुए कि इनपुट परत में केवल 80 विशेषताएं हैं, यह वास्तव में हो सकता है कि 128 बहुत अधिक है। अंगूठे का एक नियम है कि छिपी हुई इकाइयों की संख्या इनपुट इकाइयों (80) और आउटपुट कक्षाओं (5) की संख्या के बीच हो;
  • वैकल्पिक रूप से, आप इनपुट प्रतिनिधित्व स्थान के आयाम को 80 से अधिक कर सकते हैं (हालांकि यह किसी भी शब्द के लिए प्रतिनिधित्व पहले से ही बहुत संकीर्ण होने पर भी ओवरफिट हो सकता है)।

एक नेटवर्क को फिट करने का एक अच्छा तरीका बहुत अधिक नेटवर्क के साथ शुरू करना है और फिर क्षमता (छिपी हुई इकाइयों और एम्बेडिंग स्पेस) को कम करना है जब तक कि यह ओवरफिट न हो।


1
क्या आपने एल 1 और एल 2 नियमितीकरण की कोशिश की? क्या यह वास्तव में काम करता है? यह उत्तर बताता है कि आपको यह सामान्य रूप से नहीं करना चाहिए
जकुब बार्टचुक

मुझे RNN की इस संपत्ति के बारे में पता नहीं था, मैं जवाब के उस बिंदु को हटा दूंगा
मिगेल

नमस्कार, मैं सोच रहा था कि आपको अंगूठे का नियम कैसे मिला जो "छिपी हुई इकाइयों की संख्या के बीच इनपुट इकाइयों और आउटपुट कक्षाओं की संख्या के बीच होना चाहिए"। क्या कोई ऐसा कागज है जिसका मैं उल्लेख कर सकता हूं?
काँग

यह अंगूठे के नियमों के बारे में बात है, मुझे नहीं पता कि मुझे यह कहां से मिला ...
मिगुएल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.