मैं LSTMs के साथ प्रयोग करने के लिए थीनो का उपयोग कर रहा हूं, और सोच रहा था कि LSTM के लिए कौन से अनुकूलन के तरीके (SGD, Adagrad, Adadelta, RMSprop, Adam, etc) सबसे अच्छे हैं? क्या इस विषय पर कोई शोध पत्र हैं?
इसके अलावा, क्या इसका जवाब इस बात पर निर्भर करता है कि मैं किस प्रकार के एप्लिकेशन का उपयोग कर रहा हूं? यदि हां, तो मैं टेक्स्ट वर्गीकरण के लिए एलएसटीएम का उपयोग कर रहा हूं (जहां पाठ को पहले शब्द वैक्टर में परिवर्तित किया गया है)।
अंत में, उत्तर RNN के लिए समान या भिन्न होंगे? शोध पत्र, या व्यक्तिगत अंतर्दृष्टि के लिए कोई संकेत अत्यधिक सराहना की जाएगी!
LSTM काफी शक्तिशाली लगते हैं और मैं उन्हें और अधिक उपयोग करने के तरीके के बारे में अधिक जानने में दिलचस्पी रखता हूं।