तंत्रिका नेटवर्क के साथ ढाल वंश का उपयोग क्यों करें?

जब एक तंत्रिका नेटवर्क को बैक-प्रचार एल्गोरिथ्म का उपयोग करके प्रशिक्षण दिया जाता है, तो वजन अपडेट को निर्धारित करने के लिए ढाल वंश विधि का उपयोग किया जाता है। मेरा सवाल है: धीरे-धीरे एक निश्चित वजन के संबंध में न्यूनतम बिंदु का पता लगाने के लिए ढाल मूल विधि का उपयोग करने के बजाय, हम सिर्फ व्युत्पन्न , सेट नहीं करते हैं और भार का मान ज्ञात जो त्रुटि को कम करता है? $\frac{d(\text{Error})}{dw}=0$ $w$
इसके अलावा, हमें क्यों यकीन है कि बैक-प्रचार में त्रुटि फ़ंक्शन न्यूनतम होगा? क्या यह नहीं हो सकता है कि त्रुटि फ़ंक्शन बदले में अधिकतम है? क्या स्क्वाशिंग फ़ंक्शंस की एक विशिष्ट संपत्ति है जो गारंटी देती है कि किसी भी संख्या में छिपे हुए नोड्स के साथ एक नेटवर्क मनमाना भार और इनपुट वैक्टर हमेशा एक त्रुटि फ़ंक्शन देगा जिसमें कुछ मिनीमा है?

neural-networks gradient-descent backpropagation

सभी कैप्स के शीर्षक यहाँ मानक नहीं हैं (कृपया अपने आस-पास देखें) और यहाँ और अन्य जगहों पर व्यापक रूप से अनिच्छुक SHOUTING के रूप में चित्रित किया गया है।

— निक कॉक्स

@ निक कॉक्स मेरी माफी

— मिनाज

यह देखना दिलचस्प है कि जब भी मशीन लर्निंग मॉडल में छिपे या अव्यक्त चर का उपयोग किया जाता है, तो अनुकूलन (लगभग!) हमेशा गैर-रैखिक, गैर-उत्तल और अनुकूलन के लिए बस कठिन हो जाता है।

— व्लादिस्लाव्स डोवलगेक्स 16:13 पर नोव

FYI करें कि मशीन लर्निंग में न्यूटन की विधि का व्यापक रूप से उपयोग क्यों नहीं किया जाता है?

— फ्रेंक डर्नोनकोर्ट 1

जवाबों:

क्योंकि हम नहीं कर सकते। अनुकूलन सतह वजन के एक समारोह के रूप में nonlinear है और कोई भी बंद फ़ॉर्म समाधान । $S(\mathbf{w})$ $\mathbf{w}$ $\frac{d S(\mathbf{w})}{d\mathbf{w}}=0$
धीरे-धीरे वंश, परिभाषा से उतरता है। यदि आप उतरने के बाद एक स्थिर बिंदु तक पहुँचते हैं, तो यह एक (स्थानीय) न्यूनतम या एक काठी बिंदु होना चाहिए, लेकिन कभी भी स्थानीय अधिकतम नहीं।

— मार्क क्लेसेन
स्रोत

यदि फ़ंक्शन अवतल था, तो ढाल सभ्य हमेशा के लिए उतर जाएगा क्योंकि जाने का एकमात्र तरीका नीचे की ओर है। क्या आप कह रहे हैं कि त्रुटि सतह अवतल नहीं होने की गारंटी है? इसके अलावा, यह मेरे लिए स्पष्ट नहीं है कि त्रुटि फ़ंक्शन के व्युत्पन्न का कोई बंद रूप समाधान क्यों नहीं होगा।

की त्रुटि के कारण नहीं है

जहां कश्मीर एक निरंतर है? यह फ़ंक्शन काफी भिन्नता और परिणामी अभिव्यक्ति विश्लेषणात्मक रूप से हल करने योग्य लगता है। कृपया मुझे स्पष्ट करने में मदद करें क्योंकि कुछ ऐसा है जिसे मैं स्पष्ट रूप से देखने में विफल हूं।

K - \frac{1}{1 + e^{Σ w x}}

$K-\frac{1}{1+e^{\Sigma wx}}$

— मिनाज

ऐसा नहीं हो सकता है, क्योंकि आमतौर पर इस्तेमाल किए जाने वाले सभी एरर फंक्शन में एक न्यूनतम सैद्धांतिक न्यूनतम 0. त्रुटियां होती हैं जो कभी भी नकारात्मक नहीं बन सकती हैं।

— मार्क क्लेसेन

1. की एक अन्य संभावित व्याख्या "यह वही है जो हम करते हैं, समीकरण ढाल ढाल का उपयोग करके हल किया जाता है।"

— मैथ्यू ड्र्यू

स्पष्ट रूप से ढाल के लिए एक बंद रूप है (यह है कि हम कैसे ढाल वंश को कुशलतापूर्वक करते हैं)। समस्या

— seanv507

@ seanv507 कि मैं क्या कहना चाहता था, भ्रम के लिए खेद है। मेरी पोस्ट संपादित की।

— मार्क क्लेसेन

मार्क क्लेसेन के जवाब के बारे में, मेरा मानना है कि ग्रेडिएंट डीसेंट उन स्थितियों में एक स्थानीय अधिकतम पर रुक सकता है जहां आप एक स्थानीय अधिकतम के लिए इनिशियलाइज़ करते हैं या आप केवल खराब किस्मत या फिर गलत रेट पैरामीटर के कारण वहाँ समाप्त होते हैं। स्थानीय अधिकतम में जीरो ग्रेडिएंट होगा और एल्गोरिथम को लगता है कि यह परिवर्तित हो चुका होगा। यही कारण है कि मैं अक्सर अलग-अलग शुरुआती बिंदुओं से कई पुनरावृत्तियों को चलाता हूं और रास्ते में मूल्यों का ट्रैक रखता हूं।

— जारेड बेकसफोर्ट
स्रोत

मैंने आपकी प्रस्तावना टिप्पणी को संपादित किया, क्योंकि ऐसा लगता है कि आप पहले से ही कुछ परेशानियों को आकर्षित कर रहे हैं! साइट पर आपका स्वागत है!

— मैथ्यू ड्र्यू

धन्यवाद! मुझे यकीन नहीं था कि यह एक टिप्पणी या एक उत्तर होना चाहिए और यह नहीं चाहता था कि मेरा पहला उत्तर केवल उस पर आधारित विस्मरण के लिए अस्वीकृत हो जाए।

— जारेड बेकसफोर्ट

$\frac{d(\text{error})}{dw}=0$

एक को दूसरे डेरिवेटिव (हेसियन, विशेष रूप से हेसियन-वेक्टर उत्पादों) से निपटने की जरूरत है।
"हल कदम" बहुत कम्प्यूटेशनल रूप से महंगा है: समय में इसे हल करने में लगने वाला समय कई क्रमिक वंश पुनरावृत्तियों को कर सकता है।

यदि कोई हेसियन हल के लिए क्रायलोव विधि का उपयोग करता है, और एक हेसियन के लिए एक अच्छा पूर्व शर्त का उपयोग नहीं करता है, तो लागत लगभग संतुलित हो जाती है - न्यूटन पुनरावृत्तियों में अधिक समय लगता है, लेकिन अधिक प्रगति करते हैं, इस तरह से कि कुल समय लगभग है ढाल वंश की तुलना में समान या धीमा। दूसरी ओर, यदि किसी के पास एक अच्छा हेस्सियन पूर्व-छात्र है तो न्यूटन की विधि बड़े समय को जीतती है।

उस ने कहा, विश्वास-क्षेत्र न्यूटन-क्रायलोव तरीके आधुनिक बड़े पैमाने पर अनुकूलन में सोने के मानक हैं, और मैं केवल आगामी वर्षों में तंत्रिका जाल में वृद्धि के लिए उनके उपयोग की उम्मीद करूंगा क्योंकि लोग बड़ी और बड़ी समस्याओं को हल करना चाहते हैं। (और साथ ही संख्यात्मक अनुकूलन में अधिक से अधिक लोग मशीन सीखने में रुचि रखते हैं)

— निक अल्जर
स्रोत

मुझे लगता है कि आप गलत हैं। लोग 90 के दशक से nnets का उपयोग कर रहे हैं, और वे दूसरे क्रम के तरीकों से अच्छी तरह से वाकिफ हैं। समस्या ठीक है कि nnets तब सफल होता है जब बहुत अधिक डेटा होता है, जो तब बहुत सारे मापदंडों का समर्थन करता है, जिस स्थिति में दूसरे क्रम के तरीकों का समय और मेमोरी की कमी अप्रभावी होती है। उदाहरण के लिए देखें leon.bottou.org/publications/pdf/compstat-2010.pdf

— seanv507

@ seanv507 वास्तव में नहीं। उस पेपर में दूसरे ऑर्डर के तरीकों की चर्चा में बहुत सारी खामियां हैं, जिसमें वे मान लेते हैं कि दूसरे ऑर्डर के तरीकों का इस्तेमाल करने के लिए पूरे घने हेस्सियन का निर्माण करना चाहिए। यह बस नहीं है कि यह आधुनिक बड़े पैमाने पर संख्यात्मक अनुकूलन में कैसे किया जाता है। आधुनिक दूसरे क्रम के तरीकों में एक निकटवर्ती समस्याओं को हल करके वैक्टर पर हेसियन की कार्रवाई की गणना करता है, और एक पुनरावृत्त (क्रायलोव) सॉल्वर के भीतर उनका उपयोग करता है। आम तौर पर पहला आंतरिक पुनरावृत्ति ढाल दिशा देता है, और बाद में पुनरावृत्तियों में सुधार होता है।

— निक अल्जीरिया

हालाँकि मैं उस कागज़ का कोई ख़ास प्रशंसक नहीं हूँ, लेकिन मुझे नहीं लगता कि यह सच है। उन्होंने पहले हेसियन के विकर्ण और घटे हुए रैंक की चर्चा / कार्यान्वयन किया है। और मोती के 1994 के पेपर के बारे में हेसियन द्वारा तेजी से सटीक गुणा क्या है?

— seanv507

सही। एक बार जब आपके पास तेजी से हेसियन एप्लिकेशन होते हैं (चाहे पर्लमटर के माध्यम से या आपके पास क्या है), तो आप क्रुज़ोव तरीकों के साथ क्रिस्लोव ग्रेडिएंट की तरह हेस्सियन सॉल्व कर सकते हैं। ऐसा करने से, एक व्यक्ति को रैखिक रूप से चलने वाले पुनरावृत्त पुनरावृत्त सॉल्वर पर गैर-कंडीशनिंग पुनरावृत्ति से दूर बीमार कंडीशनिंग कठिनाइयों को प्रभावी ढंग से स्थानांतरित करता है, जहां किसी के पास समस्या से निपटने के लिए बहुत सारी मशीनरी और पूर्व शर्त तकनीक उपलब्ध हैं। एक अच्छा संदर्भ नोकेडल और राइट द्वारा क्लासिक "न्यूमेरिकल ऑप्टिमाइज़ेशन" में विश्वास क्षेत्र सीजी-स्टीहाग पर अनुभाग है।

— निक अल्जीरिया

मेरा कहना है कि हेसियन और संयुग्मक ग्रेडिएंट्स के गुणन को 1994 के बाद से nnets समुदाय में जाना जाता था। इसलिए मेरा मानना है कि निश्चित रूप से एक कारण है कि SGD का उपयोग दूसरे ऑर्डर के तरीकों के बजाय किया जाता है (और मैं निश्चित रूप से इसका एक स्पष्ट समाधान चाहूंगा कि यह क्यों है) )

— seanv507