एलएसटीएम के लिए कौन से अनुकूलन के तरीके सबसे अच्छे हैं?


20

मैं LSTMs के साथ प्रयोग करने के लिए थीनो का उपयोग कर रहा हूं, और सोच रहा था कि LSTM के लिए कौन से अनुकूलन के तरीके (SGD, Adagrad, Adadelta, RMSprop, Adam, etc) सबसे अच्छे हैं? क्या इस विषय पर कोई शोध पत्र हैं?

इसके अलावा, क्या इसका जवाब इस बात पर निर्भर करता है कि मैं किस प्रकार के एप्लिकेशन का उपयोग कर रहा हूं? यदि हां, तो मैं टेक्स्ट वर्गीकरण के लिए एलएसटीएम का उपयोग कर रहा हूं (जहां पाठ को पहले शब्द वैक्टर में परिवर्तित किया गया है)।

अंत में, उत्तर RNN के लिए समान या भिन्न होंगे? शोध पत्र, या व्यक्तिगत अंतर्दृष्टि के लिए कोई संकेत अत्यधिक सराहना की जाएगी!

LSTM काफी शक्तिशाली लगते हैं और मैं उन्हें और अधिक उपयोग करने के तरीके के बारे में अधिक जानने में दिलचस्पी रखता हूं।

जवाबों:


7

विडंबना यह है कि LSTM के लिए सर्वश्रेष्ठ ऑप्टिमाइज़र स्वयं LSTM हैं: https://arxiv.org/abs/1606.04474 क्रमिक वंश द्वारा क्रमिक वंश द्वारा सीखना।

मूल विचार एक तंत्रिका नेटवर्क (विशेष रूप से यहां एक LSTM नेटवर्क) का उपयोग मूल नेटवर्क के ग्रेडियरों को सीखने और सिखाने के लिए है। इसे मेटा लर्निंग कहा जाता है।

यह विधि, जबकि 2000 में Juergen Schmidhuber द्वारा प्रस्तावित, हाल ही में RNN प्रशिक्षण में अन्य आशावादियों को बाहर करने के लिए दिखाया गया था। (अच्छे ग्राफिक के लिए मूल पेपर देखें)


क्या आप हमें बता सकते हैं कि लिंक क्या कहता है?
mdewey

अपनी खुशी के लिए संशोधित। चूँकि मूल प्रश्न था "LSTM के लिए कौन सी अनुकूलन विधियाँ सर्वश्रेष्ठ हैं?" नहीं "कैसे LSTMs के लिए सबसे अच्छा अनुकूलन के तरीके काम करता है" मैं इसे उस पर छोड़ देता हूं।
अनोना १२

4

सामान्य रूप से कोई स्पष्ट प्रमाण नहीं है कि किस परिदृश्य में किस अनुकूलन विधि का उपयोग किया जाए। विभिन्न तरीकों के तहत इन तरीकों के व्यवहार में कुछ विश्लेषण किया गया है, हालांकि कुछ भी निर्णायक नहीं है। यदि आप इस सामान में डुबकी लगाना चाहते हैं तो मैं सुझाव देता हूं: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimization.pdf

कम से कम आपको कुछ उत्तर प्रदान करने के लिए मैं यह तर्क दूंगा कि अक्सर आपकी अनुकूलन दिनचर्या का विन्यास वास्तविक दिनचर्या की तुलना में अधिक महत्वपूर्ण होता है।

इसके अलावा मैं आपको यह देखने के लिए कागजात देखने की सलाह देता हूं कि कौन सी तकनीक का उपयोग किया जा रहा है। उदाहरण के लिए एलेक्स ग्रेव्स ने अपने अधिकांश प्रकाशनों में RMSprop का उपयोग करके सीक्वेंस जनरेट करने पर काम किया है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.