एलएसटीएम के लिए कौन से अनुकूलन के तरीके सबसे अच्छे हैं?

20

मैं LSTMs के साथ प्रयोग करने के लिए थीनो का उपयोग कर रहा हूं, और सोच रहा था कि LSTM के लिए कौन से अनुकूलन के तरीके (SGD, Adagrad, Adadelta, RMSprop, Adam, etc) सबसे अच्छे हैं? क्या इस विषय पर कोई शोध पत्र हैं?

इसके अलावा, क्या इसका जवाब इस बात पर निर्भर करता है कि मैं किस प्रकार के एप्लिकेशन का उपयोग कर रहा हूं? यदि हां, तो मैं टेक्स्ट वर्गीकरण के लिए एलएसटीएम का उपयोग कर रहा हूं (जहां पाठ को पहले शब्द वैक्टर में परिवर्तित किया गया है)।

अंत में, उत्तर RNN के लिए समान या भिन्न होंगे? शोध पत्र, या व्यक्तिगत अंतर्दृष्टि के लिए कोई संकेत अत्यधिक सराहना की जाएगी!

LSTM काफी शक्तिशाली लगते हैं और मैं उन्हें और अधिक उपयोग करने के तरीके के बारे में अधिक जानने में दिलचस्पी रखता हूं।

— सेब की मदिरा
स्रोत

7

विडंबना यह है कि LSTM के लिए सर्वश्रेष्ठ ऑप्टिमाइज़र स्वयं LSTM हैं: https://arxiv.org/abs/1606.04474 क्रमिक वंश द्वारा क्रमिक वंश द्वारा सीखना।

मूल विचार एक तंत्रिका नेटवर्क (विशेष रूप से यहां एक LSTM नेटवर्क) का उपयोग मूल नेटवर्क के ग्रेडियरों को सीखने और सिखाने के लिए है। इसे मेटा लर्निंग कहा जाता है।

यह विधि, जबकि 2000 में Juergen Schmidhuber द्वारा प्रस्तावित, हाल ही में RNN प्रशिक्षण में अन्य आशावादियों को बाहर करने के लिए दिखाया गया था। (अच्छे ग्राफिक के लिए मूल पेपर देखें)

— Anona112
स्रोत

क्या आप हमें बता सकते हैं कि लिंक क्या कहता है?

— mdewey

अपनी खुशी के लिए संशोधित। चूँकि मूल प्रश्न था "LSTM के लिए कौन सी अनुकूलन विधियाँ सर्वश्रेष्ठ हैं?" नहीं "कैसे LSTMs के लिए सबसे अच्छा अनुकूलन के तरीके काम करता है" मैं इसे उस पर छोड़ देता हूं।

— अनोना १२

4

सामान्य रूप से कोई स्पष्ट प्रमाण नहीं है कि किस परिदृश्य में किस अनुकूलन विधि का उपयोग किया जाए। विभिन्न तरीकों के तहत इन तरीकों के व्यवहार में कुछ विश्लेषण किया गया है, हालांकि कुछ भी निर्णायक नहीं है। यदि आप इस सामान में डुबकी लगाना चाहते हैं तो मैं सुझाव देता हूं: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimization.pdf

कम से कम आपको कुछ उत्तर प्रदान करने के लिए मैं यह तर्क दूंगा कि अक्सर आपकी अनुकूलन दिनचर्या का विन्यास वास्तविक दिनचर्या की तुलना में अधिक महत्वपूर्ण होता है।

इसके अलावा मैं आपको यह देखने के लिए कागजात देखने की सलाह देता हूं कि कौन सी तकनीक का उपयोग किया जा रहा है। उदाहरण के लिए एलेक्स ग्रेव्स ने अपने अधिकांश प्रकाशनों में RMSprop का उपयोग करके सीक्वेंस जनरेट करने पर काम किया है।

— जोएर्ड
स्रोत