sgd पर टैग किए गए जवाब

3
बैच ढाल वंश बनाम स्टोचैस्टिक ग्रेडिएंट वंश
मान लीजिए हमारे पास लिए कुछ प्रशिक्षण सेट । यह भी मान लीजिए कि हम प्रशिक्षण सेट पर कुछ प्रकार के पर्यवेक्षित शिक्षण एल्गोरिथ्म चलाते हैं। Hypotheses को । हमें और बीच "दूरी" को कम से कम करने वाले पैरामीटर को खोजने की आवश्यकता है । आज्ञा देना(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = …

2
स्टोचस्टिक ढाल वंश का आविष्कार किसने किया?
मैं ग्रेडिएंट डिसेंट और स्टोचस्टिक ग्रेडिएंट डीसेंट के इतिहास को समझने की कोशिश कर रहा हूं । धीरे-धीरे वंश का आविष्कार 1847 में कॉची में किया गया था । मेथोड गनेरेल ने ला रिसेसोलिंग डे सिस्टीम्स डी -क्वाशंस को एक साथ जोड़ा । पीपी। 536–538 इसके बारे में अधिक जानकारी …

6
उत्तल समस्याओं के लिए, स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD) में ढाल हमेशा वैश्विक चरम मूल्य पर इंगित करता है?
उत्तल लागत फ़ंक्शन को देखते हुए, अनुकूलन के लिए SGD का उपयोग करते हुए, अनुकूलन प्रक्रिया के दौरान एक निश्चित बिंदु पर हमारे पास एक ढाल (वेक्टर) होगा। मेरा सवाल यह है कि उत्तल बिंदु को देखते हुए, ग्रेडिएंट केवल उसी दिशा में इंगित करता है जिस पर फ़ंक्शन तेजी …

3
बैच आकार एसडब्ल्यूई के अभिसरण को कैसे प्रभावित करता है और क्यों?
मैंने कई चर्चाओं से समान निष्कर्ष निकाला है, जैसा कि मिनीबैच का आकार बड़ा हो जाता है, क्योंकि एसडब्ल्यूई का अभिसरण वास्तव में कठिन / बदतर हो जाता है, उदाहरण के लिए यह पेपर और यह उत्तर । इसके अलावा मैंने बड़े स्तर के आकारों के साथ इस कठिनाई को …

1
स्टोकेस्टिक ग्रेडिएंट डिसेंट्रेंट कैसे मानक ढाल डिसेंट की तुलना में समय बचा सकता है?
मानक ढाल वंश पूरे प्रशिक्षण डाटासेट के लिए ढाल की गणना करेगा। for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad युगों की पूर्व-निर्धारित संख्या के लिए, हम पहले संपूर्ण डाटासेट के लिए नुकसान फ़ंक्शन के ग्रेडिएंट वेक्टर वेट्स_ग्रेड की गणना करते हैं, …

4
यह एक काठी बिंदु में कैसे फंस सकता है?
वर्तमान में मैं थोड़ा सा हैरान हूं कि कैसे मिनी-बैच ग्रेडिएंट वंश को एक काठी बिंदु में फँसाया जा सकता है। समाधान बहुत तुच्छ हो सकता है कि मुझे नहीं मिलता है। आप एक नया नमूना हर युग मिलता है, और यह एक नया एक नए बैच के आधार पर …

1
RMSProp और एडम बनाम SGD
मैं RMSProp, एडम और SGD के साथ नेटवर्क का उपयोग करते हुए EMNIST सत्यापन सेट पर प्रयोग कर रहा हूं। मैं SGD (0.1 की सीखने की दर) और ड्रॉपआउट (0.1 ड्रॉपआउट प्रोब) के साथ-साथ एल 2 नियमितीकरण (1e-05 जुर्माना) के साथ 87% सटीकता प्राप्त कर रहा हूं। आरएमएसप्रॉप और एडम …

1
डीएई और स्टोकेस्टिक बैकप्रोपेगेशन के बीच डीप जेनेरेटिव मॉडल्स में क्या अंतर है?
डीप जेनेरेशन मॉडल्स के लिए ऑटो-एन्कोडिंग वेरिएशन बेस और स्टोचैस्टिक बैकप्रोपैजेशन में क्या अंतर है ? क्या दोनों तरीकों से अनुमान लगाने से परिणाम समान होते हैं? मुझे दो तरीकों के बीच किसी भी स्पष्ट तुलना की जानकारी नहीं है, इसके बावजूद कि लेखकों के दोनों समूह एक-दूसरे का हवाला …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.