मैं वर्तमान में स्टोकेस्टिक ग्रैडिएंट डिसेंट को लागू करने पर काम कर रहा हूं, SGD
पीछे के प्रसार का उपयोग करते हुए तंत्रिका जाल के लिए, और जब मैं इसके उद्देश्य को समझता हूं तो मुझे कुछ सवाल हैं कि सीखने की दर के लिए मूल्यों का चयन कैसे करें।
- क्या सीखने की दर त्रुटि ढाल के आकार से संबंधित है, क्योंकि यह वंश की दर निर्धारित करता है?
- यदि हां, तो आप इस जानकारी का उपयोग किसी मूल्य के बारे में अपने निर्णय को सूचित करने के लिए कैसे करते हैं?
- यदि यह नहीं है कि मुझे किस प्रकार के मूल्यों का चयन करना चाहिए, और मुझे उन्हें कैसे चुनना चाहिए?
- ऐसा लगता है कि आप छोटे मूल्यों को ओवरसोइंग से बचना चाहते हैं, लेकिन आप ऐसा कैसे चुनते हैं कि आप स्थानीय मिनीमा में फंस न जाएं या नीचे उतरने में देर न करें?
- क्या यह समझ में आता है कि एक निरंतर सीखने की दर है, या मुझे कुछ मीट्रिक का उपयोग करना चाहिए ताकि इसके मूल्य को बदल सकूं क्योंकि मुझे ग्रेडिएंट में न्यूनतम प्राप्त करना है?
संक्षेप में: मैं SGD के लिए सीखने की दर कैसे चुनूं?