तो क्या LSTM के साथ पकड़ है?


12

मैं करैस पैकेज के अपने ज्ञान का विस्तार कर रहा हूं और मैं कुछ उपलब्ध मॉडलों के साथ काम कर रहा हूं। मेरे पास एक एनएलपी बाइनरी वर्गीकरण समस्या है जिसे मैं हल करने की कोशिश कर रहा हूं और विभिन्न मॉडल लागू कर रहा हूं।

कुछ परिणामों के साथ काम करने और LSTM के बारे में अधिक से अधिक पढ़ने के बाद, ऐसा लगता है कि यह दृष्टिकोण मेरे द्वारा (कई डेटासेटों में) की कोशिश की गई चीज़ों से कहीं अधिक श्रेष्ठ है। मैं अपने आप को सोचता रहता हूं, "आप / आप एलएसटीएम का उपयोग क्यों नहीं करेंगे?" LSTM में निहित अतिरिक्त फाटकों का उपयोग, कुछ मॉडलों के गायब होने के बाद मेरे लिए सही समझ में आता है जो लुप्त हो रहे ग्रेडिएंट्स से पीड़ित हैं।

तो क्या LSTM के साथ पकड़ है? वे इतना अच्छा कहां नहीं करते हैं? मुझे पता है कि "एक आकार सभी फिट बैठता है" एल्गोरिथम जैसी कोई चीज नहीं है, इसलिए LSTM के लिए नकारात्मक पहलू होना चाहिए।


जीआरयू की कोशिश करें, वे एलएसटीएम की तरह हैं, लेकिन कम स्मृति और तेजी से प्रशिक्षण की आवश्यकता होती है।
विवेक खेतान

जवाबों:


11

आप सही हैं कि LSTM कुछ समस्याओं के लिए बहुत अच्छी तरह से काम करते हैं, लेकिन कुछ कमियां हैं:

  • LSTM को प्रशिक्षित होने में अधिक समय लगता है
  • LSTM को प्रशिक्षित करने के लिए अधिक मेमोरी की आवश्यकता होती है
  • LSTM को ओवरफिट करना आसान है
  • ड्रॉपआउट LSTMs में लागू करने के लिए बहुत कठिन है
  • LSTM विभिन्न यादृच्छिक वजन आरंभीकरण के प्रति संवेदनशील हैं

उदाहरण के लिए, ये 1D कॉन नेट जैसे सरल मॉडल की तुलना में हैं।

पहले तीन आइटम इसलिए हैं क्योंकि LSTM में अधिक पैरामीटर हैं।


3
सहमत, और मुझे लगता है कि ओवरफिटिंग (उर्फ खराब सामान्यीकरण) शायद सबसे बड़ा जोखिम है। सुनिश्चित करें कि आपके पास मॉडल सत्यापन करने के लिए एक अच्छी रणनीति है।
टॉम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.