gradient-descent पर टैग किए गए जवाब

ग्रेडिएंट वंश एक प्रथम-क्रम पुनरावृत्ति अनुकूलन एल्गोरिथ्म है। ग्रैडिएंट डिसेंट का उपयोग करते हुए फ़ंक्शन के स्थानीय न्यूनतम को खोजने के लिए, व्यक्ति वर्तमान बिंदु पर फ़ंक्शन के ग्रेडिएंट (या अनुमानित ग्रेडिएंट) के नकारात्मक के लिए आनुपातिक कदम उठाता है। स्टोकेस्टिक ग्रेडिएंट वंश के लिए [sgd] टैग भी है।

5
K- साधन वैश्विक न्यूनतम क्यों नहीं देता है?
मैंने पढ़ा कि k- साधन एल्गोरिथ्म केवल एक स्थानीय न्यूनतम में परिवर्तित होता है न कि वैश्विक न्यूनतम पर। ऐसा क्यों है? मैं तार्किक रूप से सोच सकता हूं कि कैसे प्रारंभिक अंतिम क्लस्टरिंग को प्रभावित कर सकता है और उप-इष्टतम क्लस्टरिंग की संभावना है, लेकिन मुझे ऐसा कुछ भी …

1
स्टोकेस्टिक ग्रेडिएंट डिसेंट्रेंट कैसे मानक ढाल डिसेंट की तुलना में समय बचा सकता है?
मानक ढाल वंश पूरे प्रशिक्षण डाटासेट के लिए ढाल की गणना करेगा। for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad युगों की पूर्व-निर्धारित संख्या के लिए, हम पहले संपूर्ण डाटासेट के लिए नुकसान फ़ंक्शन के ग्रेडिएंट वेक्टर वेट्स_ग्रेड की गणना करते हैं, …


3
ऑनलाइन और बैच लर्निंग में क्या अंतर है?
मैं वर्तमान में फॉरवर्ड-बैकवर्ड स्प्लिटिंग का उपयोग करके पेपर ऑनलाइन कुशल और बैच लर्निंग पढ़ता हूं जॉन ड्यूची और योरम सिंगर द्वारा । मैं 'ऑनलाइन' और 'बैच' शब्दों के उपयोग को लेकर बहुत उलझन में हूं। मैंने सोचा था कि 'ऑनलाइन' का मतलब है कि हम प्रशिक्षण डेटा की एक …

1
पेरीसेप्टन नियम बनाम ग्रैडिएंट डिसेंट बनाम स्टोचैस्टिक ग्रैडिएंट डिसेंट कार्यान्वयन के बारे में स्पष्टीकरण
मैंने विभिन्न पेरेसेप्ट्रॉन कार्यान्वयन के साथ थोड़ा सा प्रयोग किया और यह सुनिश्चित करना चाहता हूं कि क्या मैं "पुनरावृत्तियों" को सही ढंग से समझ पाऊं। रोसेनब्लैट का मूल अवधारणात्मक नियम जहाँ तक मुझे समझ में आता है, रोसेनब्लैट के क्लासिक परसेप्ट्रोन एल्गोरिथ्म में, वेटिंग को एक साथ हर प्रशिक्षण …

1
(मिनी) बैच ढाल में ग्रेडिएंट्स का योग या औसत?
जब मैंने मिनी बैच ग्रेडिएंट सभ्य लागू किया, तो मैंने प्रशिक्षण बैच में सभी उदाहरणों के ग्रेडिएंट्स को औसत किया। हालाँकि, मैंने देखा कि अब ऑनलाइन ग्रेडिएंट सभ्य के लिए इष्टतम सीखने की दर बहुत अधिक है। मेरा अंतर्ज्ञान यह है कि यह इसलिए है क्योंकि औसत ग्रेडिएंट कम शोर …

1
सीएनएन कैसे लुप्त होती क्रमिक समस्या से बचता है
मैं कंफर्टेबल न्यूरल नेटवर्क के बारे में बहुत कुछ पढ़ता रहा हूं और सोच रहा था कि वे गायब होने वाली ढाल की समस्या से कैसे बचें। मुझे पता है कि गहरे विश्वास वाले नेटवर्क एकल स्तर के ऑटो-एनकोडर या अन्य पूर्व-प्रशिक्षित उथले नेटवर्क को रोकते हैं और इस प्रकार …

1
हम अन्य नेटवर्क्स नेटवर्क की चीजों के लिए ढाल के लिए गैर-निरंतर सीखने की दरों का उपयोग क्यों नहीं करते हैं?
गहन सीखने वाला साहित्य धीरे-धीरे वंश में गैर-निरंतर सीखने की दर का उपयोग करने के साथ चतुर चाल से भरा है। घातीय क्षय, RMSprop, Adagrad आदि जैसी चीजें लागू करना आसान है और हर गहरे सीखने के पैकेज में उपलब्ध हैं, फिर भी वे तंत्रिका नेटवर्क के बाहर कोई नहीं …

4
यह एक काठी बिंदु में कैसे फंस सकता है?
वर्तमान में मैं थोड़ा सा हैरान हूं कि कैसे मिनी-बैच ग्रेडिएंट वंश को एक काठी बिंदु में फँसाया जा सकता है। समाधान बहुत तुच्छ हो सकता है कि मुझे नहीं मिलता है। आप एक नया नमूना हर युग मिलता है, और यह एक नया एक नए बैच के आधार पर …

1
प्रासंगिक डाकुओं के लिए लागत कार्य
मैं एक संदर्भ-दस्यु समस्या को हल करने के लिए वॉवेल वैबबिट का उपयोग कर रहा हूं । मैं उपयोगकर्ताओं को विज्ञापन दिखा रहा हूं, और मेरे पास उस संदर्भ के बारे में थोड़ी जानकारी है जिसमें विज्ञापन दिखाया गया है (जैसे कि उपयोगकर्ता कौन है, वे किस साइट पर हैं, …

2
आर में स्नातक वंशज बनाम एलएम () फ़ंक्शन?
मैं स्टैनफोर्ड में एंड्रयू एनजी के मुफ्त ऑनलाइन मशीन सीखने के पाठ्यक्रम में वीडियो के माध्यम से जा रहा हूं । उन्होंने यह प्रदर्शन करने के लिए ऑक्टेव में रैखिक प्रतिगमन और लेखन कार्यों को हल करने के लिए एक एल्गोरिथ्म के रूप में ग्रेडिएंट डिसेंट की चर्चा की। संभवत: …

5
बड़े डेटा सेट के लिए ढाल मूल अक्षम क्यों है?
मान लें कि हमारे डेटा सेट में 1 मिलियन उदाहरण हैं, अर्थात, , और हम इन डेटा सेट पर लॉजिस्टिक या रैखिक प्रतिगमन करने के लिए ढाल वंश का उपयोग करना चाहते हैं।एक्स1, ... , एक्स106x1,…,x106x_1, \ldots, x_{10^6} यह ढाल मूल विधि के साथ क्या है जो इसे अक्षम बनाता …

1
व्यवहार में प्रयुक्त "सैडल-फ्री न्यूटन" वंश एल्गोरिथ्म क्यों नहीं है?
हाल ही में मैंने Yann Dauphin et al द्वारा एक पेपर पढ़ा है। उच्च-आयामी गैर-उत्तल अनुकूलन में काठी बिंदु समस्या की पहचान करना और उस पर हमला करना , जहां वे सैडल-फ्री न्यूटन नामक एक दिलचस्प वंश एल्गोरिथ्म का परिचय देते हैं , जो तंत्रिका नेटवर्क अनुकूलन के लिए बिल्कुल …

2
पायथन, गामा, या ट्वीडेई वितरण का उपयोग करके त्रुटि वितरण के लिए परिवार के रूप में पाइथन / स्किकिट-जीएल में जीएलएम का मूल्यांकन करना संभव है?
कुछ पायथन और स्केलेर को सीखने की कोशिश कर रहा हूं, लेकिन मेरे काम के लिए मुझे ऐसे प्रतिगमन चलाने की आवश्यकता है जो पॉइसन, गामा और विशेष रूप से ट्वीडे परिवारों से त्रुटि वितरण का उपयोग करते हैं। मुझे उनके बारे में प्रलेखन में कुछ भी नहीं दिखता है, …

1
स्टोचस्टिक ग्रेडिएंट डिसेंट (SGD) के लिए एक उपयुक्त मिनीबैच आकार चुनना
क्या कोई साहित्य है जो स्टोकेस्टिक क्रमिक वंश प्रदर्शन करते समय मिनीबच आकार की पसंद की जांच करता है? मेरे अनुभव में, यह एक अनुभवजन्य विकल्प प्रतीत होता है, जो आमतौर पर क्रॉस-मान्यता के माध्यम से या अंगूठे के अलग-अलग नियमों का उपयोग करके पाया जाता है। क्या यह एक …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.