gradient-descent पर टैग किए गए जवाब

ग्रेडिएंट वंश एक प्रथम-क्रम पुनरावृत्ति अनुकूलन एल्गोरिथ्म है। ग्रैडिएंट डिसेंट का उपयोग करते हुए फ़ंक्शन के स्थानीय न्यूनतम को खोजने के लिए, व्यक्ति वर्तमान बिंदु पर फ़ंक्शन के ग्रेडिएंट (या अनुमानित ग्रेडिएंट) के नकारात्मक के लिए आनुपातिक कदम उठाता है। स्टोकेस्टिक ग्रेडिएंट वंश के लिए [sgd] टैग भी है।

8
मशीन लर्निंग में न्यूटन की विधि का व्यापक रूप से उपयोग क्यों नहीं किया जाता है?
यह कुछ ऐसा है जो मुझे थोड़ी देर के लिए परेशान कर रहा है, और मुझे ऑनलाइन कोई संतोषजनक उत्तर नहीं मिला, इसलिए यहां जाता है: उत्तल अनुकूलन पर व्याख्यान के एक सेट की समीक्षा करने के बाद, न्यूटन की विधि वैश्विक रूप से इष्टतम समाधान खोजने के लिए ढाल …

3
बैच ढाल वंश बनाम स्टोचैस्टिक ग्रेडिएंट वंश
मान लीजिए हमारे पास लिए कुछ प्रशिक्षण सेट । यह भी मान लीजिए कि हम प्रशिक्षण सेट पर कुछ प्रकार के पर्यवेक्षित शिक्षण एल्गोरिथ्म चलाते हैं। Hypotheses को । हमें और बीच "दूरी" को कम से कम करने वाले पैरामीटर को खोजने की आवश्यकता है । आज्ञा देना(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = …

6
रेखीय प्रतिगमन के लिए ढाल वंश का उपयोग क्यों करें, जब एक बंद-प्रपत्र गणित समाधान उपलब्ध हो?
मैं मशीन लर्निंग पाठ्यक्रम ऑनलाइन ले रहा हूं और परिकल्पना में इष्टतम मूल्यों की गणना के लिए ग्रेडिएंट डिसेंट के बारे में सीखा है। h(x) = B0 + B1X अगर हम आसानी से नीचे दिए गए फॉर्मूला के साथ मूल्यों को पा सकते हैं तो हमें ग्रेडिएंट डिसेंट का उपयोग …

2
बंद-रूप बनाम ढाल वंश में प्रतिगमन मापदंडों के लिए समाधान
एंड्रयू एनजी के मशीन लर्निंग कोर्स में , वह रैखिक प्रतिगमन और लॉजिस्टिक रिग्रेशन का परिचय देता है, और दिखाता है कि कैसे ढाल वंश और न्यूटन की विधि का उपयोग करके मॉडल मापदंडों को फिट किया जाए। मुझे पता है कि ढाल सीखने की मशीन सीखने के कुछ अनुप्रयोगों …

3
तंत्रिका नेटवर्क के शोधकर्ता युगों की परवाह क्यों करते हैं?
स्टोचस्टिक ढाल वंश में एक युग डेटा के माध्यम से एक एकल पास के रूप में परिभाषित किया गया है। प्रत्येक SGD मिनीबैच के लिए, नमूने खींचे जाते हैं , क्रमिक गणना और पैरामीटर अपडेट किए जाते हैं। युगीन सेटिंग में, नमूने प्रतिस्थापन के बिना खींचे जाते हैं।kkk लेकिन यह …

7
मूल्यांकन करने के लिए लागत समारोह धीमा होने पर अनुकूलन
लागत कार्यों में स्थानीय मिनिमा खोजने के लिए धीरे-धीरे वंश और कई अन्य विधियां उपयोगी हैं। वे तब कुशल हो सकते हैं जब प्रत्येक बिंदु पर लागत फ़ंक्शन का त्वरित रूप से मूल्यांकन किया जा सकता है, चाहे संख्यात्मक रूप से या विश्लेषणात्मक रूप से। मेरे पास वह है जो …

6
घातीय क्षय के साथ एडम अनुकूलक
अधिकांश टेनसफ़्लो कोड में मैंने देखा है कि एडम ऑप्टिमाइज़र का उपयोग 1e-4(यानी 0.0001) के निरंतर सीखने की दर के साथ किया जाता है । कोड आमतौर पर निम्नलिखित दिखता है: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will …

1
स्टोचस्टिक ढाल वंश के लिए बैच का आकार कितना बड़ा होना चाहिए?
मैं समझता हूँ कि स्टोकेस्टिक ग्रेडिएंट वंश का उपयोग प्रशिक्षण डेटासेट के एक अलग नमूने के साथ प्रत्येक पुनरावृत्ति को अद्यतन करके एक तंत्रिका नेटवर्क को अनुकूलित करने के लिए किया जा सकता है। बैच का आकार कितना बड़ा होना चाहिए?

4
गति आधारित ढाल वंश और नेस्टरोव के त्वरित ढाल वंश के बीच क्या अंतर है?
तो गति आधारित ढाल वंश निम्नानुसार काम करता है: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g जहां पिछले वजन अद्यतन है, और जी मापदंडों पी के संबंध में वर्तमान ढाल है , एल आर सीखने की दर है, और एस ई एल एफ है । m o m e n t u m एक स्थिर है।mmmgggppplrlrlrself.momentumself.momentumself.momentum …

1
GradientDescentOptimizer और AdamOptimizer (TensorFlow) के बीच अंतर?
मैंने TensorFlow में एक साधारण MLP लिखा है जो XOR-Gate मॉडलिंग कर रहा है । के लिए: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] यह निम्नलिखित उत्पादन करना चाहिए: output_data = [[0.], [1.], [1.], [0.]] नेटवर्क में एक इनपुट परत, एक छिपी हुई परत और 2, 5 …

1
स्टोकेस्टिक क्रमिक वंश के एडम विधि कैसे काम करती है?
मैं तंत्रिका नेटवर्क के प्रशिक्षण के लिए बुनियादी ढाल वंश एल्गोरिदम से परिचित हूं। मैंने एडम को प्रस्तावित करने वाला पेपर पढ़ा है: एडम: एक मैथोड फॉर स्टेटिक ऑप्टिमाइज़ेशन । जबकि मुझे निश्चित रूप से कुछ अंतर्दृष्टि (कम से कम) मिली है , कागज मुझे समग्र रूप से बहुत उच्च …

1
तंत्रिका नेटवर्क: वजन में परिवर्तन की गति और वजन में गिरावट
मोमेंटम का उपयोग लगातार पुनरावृत्तियों पर वज़न में होने वाले उतार-चढ़ाव को कम करने के लिए किया जाता है:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), जहां त्रुटि फ़ंक्शन है, - वेट के वेक्टर, - सीखने की दर।E(w)E(w)E({\bf w})ww{\bf w}ηη\eta वजन में कमी वजन में परिवर्तन को …

4
रेक्टिलाइनियर सक्रियण फ़ंक्शन तंत्रिका नेटवर्क में लुप्त हो रही ढाल समस्या को कैसे हल करता है?
मैंने पाया कि रैखिक नेटवर्क (ReLU) ने कई स्थानों पर तंत्रिका नेटवर्क के लिए लुप्त हो रही ढाल समस्या के समाधान के रूप में प्रशंसा की । यही है, एक सक्रियण फ़ंक्शन के रूप में अधिकतम (0, x) का उपयोग करता है। जब सक्रियण सकारात्मक होता है, तो यह स्पष्ट …

2
स्टोचस्टिक ढाल वंश का आविष्कार किसने किया?
मैं ग्रेडिएंट डिसेंट और स्टोचस्टिक ग्रेडिएंट डीसेंट के इतिहास को समझने की कोशिश कर रहा हूं । धीरे-धीरे वंश का आविष्कार 1847 में कॉची में किया गया था । मेथोड गनेरेल ने ला रिसेसोलिंग डे सिस्टीम्स डी -क्वाशंस को एक साथ जोड़ा । पीपी। 536–538 इसके बारे में अधिक जानकारी …

2
क्या हमें एक रेखीय प्रतिगमन मॉडल के गुणांक को खोजने के लिए ढाल वंश की आवश्यकता है?
मैं कौरसेरा सामग्री का उपयोग करके मशीन सीखने की कोशिश कर रहा था । इस व्याख्यान में, एंड्रयू एनजी रेखीय प्रतिगमन मॉडल के गुणांक को खोजने के लिए ढाल वंश एल्गोरिथ्म का उपयोग करता है जो त्रुटि फ़ंक्शन (लागत फ़ंक्शन) को कम करेगा। रैखिक प्रतिगमन के लिए, क्या हमें ढाल …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.