सांख्यिकी और बिग डेटा adam

6

अधिकांश टेनसफ़्लो कोड में मैंने देखा है कि एडम ऑप्टिमाइज़र का उपयोग 1e-4(यानी 0.0001) के निरंतर सीखने की दर के साथ किया जाता है । कोड आमतौर पर निम्नलिखित दिखता है: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will …

53 neural-networks deep-learning gradient-descent tensorflow adam

1

स्टोकेस्टिक क्रमिक वंश के एडम विधि कैसे काम करती है?

मैं तंत्रिका नेटवर्क के प्रशिक्षण के लिए बुनियादी ढाल वंश एल्गोरिदम से परिचित हूं। मैंने एडम को प्रस्तावित करने वाला पेपर पढ़ा है: एडम: एक मैथोड फॉर स्टेटिक ऑप्टिमाइज़ेशन । जबकि मुझे निश्चित रूप से कुछ अंतर्दृष्टि (कम से कम) मिली है , कागज मुझे समग्र रूप से बहुत उच्च …

45 neural-networks optimization gradient-descent adam

3

क्या कारण है कि एडम ऑप्टिमाइज़र को अपने उच्च मापदंडों के मूल्य के लिए मजबूत माना जाता है?

मैं डीप लर्निंग के लिए एडम ऑप्टिमाइज़र के बारे में पढ़ रहा था और बेंगियो, गुडफेलो और कोर्टविल की नई किताब डीप लर्निंग में निम्नलिखित वाक्य आया : एडम को आमतौर पर हाइपर मापदंडों के चुनाव के लिए काफी मजबूत माना जाता है, हालांकि सीखने की दर को कभी-कभी सुझाए …

24 neural-networks deep-learning optimization hyperparameter adam

2

एडम ऑप्टिमाइज़र के साथ प्रशिक्षण हानि बनाम पुनरावृत्तियों में स्पाइक्स की व्याख्या

मैं i) SGD और ii) एडम ऑप्टिमाइज़र का उपयोग करके एक तंत्रिका नेटवर्क को प्रशिक्षित कर रहा हूं। सामान्य SGD का उपयोग करते समय, मुझे एक चिकनी प्रशिक्षण हानि बनाम पुनरावृत्ति वक्र मिलता है जैसा कि नीचे देखा गया है (लाल एक)। हालांकि, जब मैंने एडम ऑप्टिमाइज़र का उपयोग किया, …

16 neural-networks deep-learning adam

1

डीप लर्निंग के लिए एडम ऑप्टिमाइज़र के लिए पूर्वाग्रह सुधार शब्द शामिल करना क्यों महत्वपूर्ण है?

मैं डीप लर्निंग के लिए एडम ऑप्टिमाइज़र के बारे में पढ़ रहा था और बेग्नियो, गुडफेलो और कोर्टविल की नई किताब डीप लर्निंग में निम्नलिखित वाक्य आया था : एडम में पहले क्रम के क्षणों (संवेग शब्द) और मूल (उनके अप्रतिबंधित) दूसरे क्रम के क्षणों के अनुमानों में पूर्वाग्रह सुधार …

15 machine-learning neural-networks optimization conv-neural-network adam

1

RMSProp और एडम बनाम SGD

मैं RMSProp, एडम और SGD के साथ नेटवर्क का उपयोग करते हुए EMNIST सत्यापन सेट पर प्रयोग कर रहा हूं। मैं SGD (0.1 की सीखने की दर) और ड्रॉपआउट (0.1 ड्रॉपआउट प्रोब) के साथ-साथ एल 2 नियमितीकरण (1e-05 जुर्माना) के साथ 87% सटीकता प्राप्त कर रहा हूं। आरएमएसप्रॉप और एडम …

12 machine-learning optimization sgd adam

adam पर टैग किए गए जवाब