gradient-descent पर टैग किए गए जवाब

ग्रेडिएंट वंश एक प्रथम-क्रम पुनरावृत्ति अनुकूलन एल्गोरिथ्म है। ग्रैडिएंट डिसेंट का उपयोग करते हुए फ़ंक्शन के स्थानीय न्यूनतम को खोजने के लिए, व्यक्ति वर्तमान बिंदु पर फ़ंक्शन के ग्रेडिएंट (या अनुमानित ग्रेडिएंट) के नकारात्मक के लिए आनुपातिक कदम उठाता है। स्टोकेस्टिक ग्रेडिएंट वंश के लिए [sgd] टैग भी है।

6
संख्यात्मक अनुकूलन के लिए तीसरे व्युत्पन्न का उपयोग क्यों नहीं किया जाता है?
यदि हेसियन अनुकूलन के लिए बहुत अच्छे हैं (उदाहरण के लिए न्यूटन की विधि देखें ), तो वहां क्यों रुकें? चलो तीसरे, चौथे, पांचवें और छठे डेरिवेटिव का उपयोग करें? क्यों नहीं?

4
लॉजिस्टिक रिग्रेशन से लागत समारोह कैसे व्युत्पन्न होता है
मैं कौरसेरा पर मशीन लर्निंग स्टैनफोर्ड कोर्स कर रहा हूं। लॉजिस्टिक रिग्रेशन पर अध्याय में, लागत समारोह यह है: फिर, इसे यहाँ व्युत्पन्न किया गया है: मैंने लागत समारोह के व्युत्पन्न होने की कोशिश की, लेकिन मुझे कुछ पूरी तरह से अलग मिला। व्युत्पन्न कैसे प्राप्त किया जाता है? मध्यस्थ …

2
EM और ग्रेडिएंट एसेंट के बीच अंतर क्या है?
एल्गोरिदम ईएम (एक्सपेक्टेशन मैक्सिमाइजेशन) और ग्रैडिएंट एसेंट (या डीसेंट) में क्या अंतर है? क्या कोई शर्त है जिसके तहत वे समकक्ष हैं?

6
उत्तल समस्याओं के लिए, स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD) में ढाल हमेशा वैश्विक चरम मूल्य पर इंगित करता है?
उत्तल लागत फ़ंक्शन को देखते हुए, अनुकूलन के लिए SGD का उपयोग करते हुए, अनुकूलन प्रक्रिया के दौरान एक निश्चित बिंदु पर हमारे पास एक ढाल (वेक्टर) होगा। मेरा सवाल यह है कि उत्तल बिंदु को देखते हुए, ग्रेडिएंट केवल उसी दिशा में इंगित करता है जिस पर फ़ंक्शन तेजी …

1
कैसे ढाल वंश के लिए समाप्ति की स्थिति को परिभाषित करने के लिए?
असल में, मैं आपसे पूछना चाहता था कि मैं धीरे-धीरे उतरने की स्थिति को कैसे परिभाषित कर सकता हूं। क्या मैं पुनरावृत्तियों की संख्या के आधार पर इसे रोक सकता हूँ, अर्थात, मान के लिए मान, १०० पुनरावृत्तियों? या क्या मुझे ऐसा इंतजार करना चाहिए कि दो मापदंडों मानों में …

3
समन्वय बनाम ढाल वंश
मैं सोच रहा था कि दो एल्गोरिदम, कोऑर्डिनेट डिसेंट और ग्रेडिएंट डिसेंट के लिए अलग-अलग उपयोग के मामले क्या हैं । मुझे पता है कि समन्वित वंश को गैर-चिकनी कार्यों के साथ समस्या है लेकिन इसका उपयोग एसवीएम और एलएएसओ जैसे लोकप्रिय एल्गोरिदम में किया जाता है। हालांकि धीरे-धीरे मुझे …

1
ResNet स्किप कनेक्शन के माध्यम से ग्रैडिएंट बैकप्रोपैजेशन
मैं इस बात को लेकर उत्सुक हूं कि कैसे न्यूट्रल नेटवर्क का उपयोग नेट-रेस्पेक्ट्स / स्किप कनेक्शन के माध्यम से किया जाता है। मैंने ResNet (जैसे स्किप-लेयर कनेक्शन वाले न्यूरल नेटवर्क ) के बारे में कुछ सवाल देखे हैं, लेकिन यह विशेष रूप से प्रशिक्षण के दौरान ग्रेडिएंट्स के बैक-प्रचार …

3
तंत्रिका नेटवर्क के साथ ढाल वंश का उपयोग क्यों करें?
जब एक तंत्रिका नेटवर्क को बैक-प्रचार एल्गोरिथ्म का उपयोग करके प्रशिक्षण दिया जाता है, तो वजन अपडेट को निर्धारित करने के लिए ढाल वंश विधि का उपयोग किया जाता है। मेरा सवाल है: धीरे-धीरे एक निश्चित वजन के संबंध में न्यूनतम बिंदु का पता लगाने के लिए ढाल मूल विधि …

3
क्या कर्नेलाइज़्ड SVM के लिए ग्रेडिएंट डिसेंट संभव है (यदि ऐसा है, तो लोग द्विघात प्रोग्रामिंग का उपयोग क्यों करते हैं)?
कर्नेलयुक्त SVM से निपटने के दौरान लोग द्विघात प्रोग्रामिंग तकनीक (जैसे SMO) का उपयोग क्यों करते हैं? ग्रेडिएंट डिसेंट में क्या गलत है? क्या यह गुठली के साथ उपयोग करना असंभव है या क्या यह बहुत धीमा है (और क्यों?)। यहां थोड़ा और संदर्भ दिया गया है: एसवीएम को थोड़ा …

3
परसेप्ट्रॉन नियम से ग्रैडिएंट डिसेंट के लिए: लॉजिस्टिक्स रिग्रेशन से अलग सिग्मॉइड एक्टिवेशन फंक्शन के साथ पेरीसेप्टन कैसे होते हैं?
अनिवार्य रूप से, मेरा सवाल यह है कि बहुपरत पर्सेप्ट्रॉन में, सिग्माइड्रॉन का उपयोग सिग्मॉइड सक्रियण फ़ंक्शन के साथ किया जाता है। तो नवीनीकरण नियम में है कि y के रूप में गणना की जाती हैy^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} यह "सिग्मॉइड" पर्सेप्ट्रॉन एक लॉजिस्टिक रिग्रेशन से कैसे भिन्न होता है? …

2
तंत्रिका जाल में, अन्य मेटाह्योरिस्टिक्स के बजाय ढाल विधियों का उपयोग क्यों करें?
गहरे और उथले तंत्रिका नेटवर्क के प्रशिक्षण में, अन्य मेटाफ्यूरिस्टिक्स के विपरीत ग्रेडिएंट मेथड्स (जैसे ग्रेडिएंट डिसेंट, नेस्टरोव, न्यूटन-राफसन) का आमतौर पर इस्तेमाल क्यों किया जाता है? मेटाह्यूरिस्टिक्स से मेरा मतलब है कि नकली एनालिंग, चींटी कॉलोनी ऑप्टिमाइज़ेशन आदि जैसे तरीके, जो एक स्थानीय मिनीमा में अटकने से बचने के …

3
जब आनुवंशिक एल्गोरिदम अनुकूलन के लिए एक अच्छा विकल्प हैं?
जेनेटिक एल्गोरिदम अनुकूलन विधि का एक रूप है। अक्सर स्टोचैस्टिक ग्रेडिएंट डिसेंट और इसके डेरिवेटिव फंक्शन ऑप्टिमाइजेशन के लिए सबसे अच्छा विकल्प होते हैं, लेकिन जेनेटिक एल्गोरिदम अभी भी कभी-कभी उपयोग किए जाते हैं। उदाहरण के लिए, नासा के ST5 अंतरिक्ष यान का एंटीना एक आनुवंशिक एल्गोरिथ्म के साथ बनाया …

3
जब हम एक रेखीय प्रतिगमन को हल करते हैं तो क्या कई स्थानीय इष्टतम समाधान हो सकते हैं?
मैंने इस कथन को एक पुरानी सच्ची / झूठी परीक्षा पर पढ़ा: हम कई स्थानीय इष्टतम समाधान प्राप्त कर सकते हैं यदि हम क्रमिक वंश का उपयोग करके चुकता त्रुटियों के योग को कम करके एक रैखिक प्रतिगमन समस्या को हल करते हैं। हल: मिथ्या मेरा सवाल यह है कि …

3
स्टोकेस्टिक क्रमिक वंश स्थानीय न्यूनतम की समस्या से कैसे बचा जा सकता है?
मुझे पता है कि स्टोकेस्टिक ग्रेडिएंट वंश में यादृच्छिक व्यवहार है, लेकिन मुझे नहीं पता कि क्यों। क्या इस बारे में कोई स्पष्टीकरण है?

3
बैच आकार एसडब्ल्यूई के अभिसरण को कैसे प्रभावित करता है और क्यों?
मैंने कई चर्चाओं से समान निष्कर्ष निकाला है, जैसा कि मिनीबैच का आकार बड़ा हो जाता है, क्योंकि एसडब्ल्यूई का अभिसरण वास्तव में कठिन / बदतर हो जाता है, उदाहरण के लिए यह पेपर और यह उत्तर । इसके अलावा मैंने बड़े स्तर के आकारों के साथ इस कठिनाई को …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.