तंत्रिका नेटवर्क के साथ ढाल वंश का उपयोग क्यों करें?


22
  1. जब एक तंत्रिका नेटवर्क को बैक-प्रचार एल्गोरिथ्म का उपयोग करके प्रशिक्षण दिया जाता है, तो वजन अपडेट को निर्धारित करने के लिए ढाल वंश विधि का उपयोग किया जाता है। मेरा सवाल है: धीरे-धीरे एक निश्चित वजन के संबंध में न्यूनतम बिंदु का पता लगाने के लिए ढाल मूल विधि का उपयोग करने के बजाय, हम सिर्फ व्युत्पन्न , सेट नहीं करते हैं और भार का मान ज्ञात जो त्रुटि को कम करता है?wd(Error)dw=0w

  2. इसके अलावा, हमें क्यों यकीन है कि बैक-प्रचार में त्रुटि फ़ंक्शन न्यूनतम होगा? क्या यह नहीं हो सकता है कि त्रुटि फ़ंक्शन बदले में अधिकतम है? क्या स्क्वाशिंग फ़ंक्शंस की एक विशिष्ट संपत्ति है जो गारंटी देती है कि किसी भी संख्या में छिपे हुए नोड्स के साथ एक नेटवर्क मनमाना भार और इनपुट वैक्टर हमेशा एक त्रुटि फ़ंक्शन देगा जिसमें कुछ मिनीमा है?


2
सभी कैप्स के शीर्षक यहाँ मानक नहीं हैं (कृपया अपने आस-पास देखें) और यहाँ और अन्य जगहों पर व्यापक रूप से अनिच्छुक SHOUTING के रूप में चित्रित किया गया है।
निक कॉक्स

@ निक कॉक्स मेरी माफी
मिनाज

यह देखना दिलचस्प है कि जब भी मशीन लर्निंग मॉडल में छिपे या अव्यक्त चर का उपयोग किया जाता है, तो अनुकूलन (लगभग!) हमेशा गैर-रैखिक, गैर-उत्तल और अनुकूलन के लिए बस कठिन हो जाता है।
व्लादिस्लाव्स डोवलगेक्स 16:13 पर नोव

जवाबों:


30
  1. क्योंकि हम नहीं कर सकते। अनुकूलन सतह वजन के एक समारोह के रूप में nonlinear है और कोई भी बंद फ़ॉर्म समाधान ।डब्ल्यू डी एस ( डब्ल्यू )S(w)wdS(w)dw=0

  2. धीरे-धीरे वंश, परिभाषा से उतरता है। यदि आप उतरने के बाद एक स्थिर बिंदु तक पहुँचते हैं, तो यह एक (स्थानीय) न्यूनतम या एक काठी बिंदु होना चाहिए, लेकिन कभी भी स्थानीय अधिकतम नहीं।


यदि फ़ंक्शन अवतल था, तो ढाल सभ्य हमेशा के लिए उतर जाएगा क्योंकि जाने का एकमात्र तरीका नीचे की ओर है। क्या आप कह रहे हैं कि त्रुटि सतह अवतल नहीं होने की गारंटी है? इसके अलावा, यह मेरे लिए स्पष्ट नहीं है कि त्रुटि फ़ंक्शन के व्युत्पन्न का कोई बंद रूप समाधान क्यों नहीं होगा। के - 1 की त्रुटि के कारण नहीं है जहां कश्मीर एक निरंतर है? यह फ़ंक्शन काफी भिन्नता और परिणामी अभिव्यक्ति विश्लेषणात्मक रूप से हल करने योग्य लगता है। कृपया मुझे स्पष्ट करने में मदद करें क्योंकि कुछ ऐसा है जिसे मैं स्पष्ट रूप से देखने में विफल हूं। K11+eΣwx
मिनाज

8
ऐसा नहीं हो सकता है, क्योंकि आमतौर पर इस्तेमाल किए जाने वाले सभी एरर फंक्शन में एक न्यूनतम सैद्धांतिक न्यूनतम 0. त्रुटियां होती हैं जो कभी भी नकारात्मक नहीं बन सकती हैं।
मार्क क्लेसेन

2
1. की एक अन्य संभावित व्याख्या "यह वही है जो हम करते हैं, समीकरण ढाल ढाल का उपयोग करके हल किया जाता है।"
मैथ्यू ड्र्यू

1
स्पष्ट रूप से ढाल के लिए एक बंद रूप है (यह है कि हम कैसे ढाल वंश को कुशलतापूर्वक करते हैं)। समस्या
seanv507

@ seanv507 कि मैं क्या कहना चाहता था, भ्रम के लिए खेद है। मेरी पोस्ट संपादित की।
मार्क क्लेसेन

10

मार्क क्लेसेन के जवाब के बारे में, मेरा मानना ​​है कि ग्रेडिएंट डीसेंट उन स्थितियों में एक स्थानीय अधिकतम पर रुक सकता है जहां आप एक स्थानीय अधिकतम के लिए इनिशियलाइज़ करते हैं या आप केवल खराब किस्मत या फिर गलत रेट पैरामीटर के कारण वहाँ समाप्त होते हैं। स्थानीय अधिकतम में जीरो ग्रेडिएंट होगा और एल्गोरिथम को लगता है कि यह परिवर्तित हो चुका होगा। यही कारण है कि मैं अक्सर अलग-अलग शुरुआती बिंदुओं से कई पुनरावृत्तियों को चलाता हूं और रास्ते में मूल्यों का ट्रैक रखता हूं।


1
मैंने आपकी प्रस्तावना टिप्पणी को संपादित किया, क्योंकि ऐसा लगता है कि आप पहले से ही कुछ परेशानियों को आकर्षित कर रहे हैं! साइट पर आपका स्वागत है!
मैथ्यू ड्र्यू

धन्यवाद! मुझे यकीन नहीं था कि यह एक टिप्पणी या एक उत्तर होना चाहिए और यह नहीं चाहता था कि मेरा पहला उत्तर केवल उस पर आधारित विस्मरण के लिए अस्वीकृत हो जाए।
जारेड बेकसफोर्ट

6

d(error)dw=0

  • एक को दूसरे डेरिवेटिव (हेसियन, विशेष रूप से हेसियन-वेक्टर उत्पादों) से निपटने की जरूरत है।
  • "हल कदम" बहुत कम्प्यूटेशनल रूप से महंगा है: समय में इसे हल करने में लगने वाला समय कई क्रमिक वंश पुनरावृत्तियों को कर सकता है।

यदि कोई हेसियन हल के लिए क्रायलोव विधि का उपयोग करता है, और एक हेसियन के लिए एक अच्छा पूर्व शर्त का उपयोग नहीं करता है, तो लागत लगभग संतुलित हो जाती है - न्यूटन पुनरावृत्तियों में अधिक समय लगता है, लेकिन अधिक प्रगति करते हैं, इस तरह से कि कुल समय लगभग है ढाल वंश की तुलना में समान या धीमा। दूसरी ओर, यदि किसी के पास एक अच्छा हेस्सियन पूर्व-छात्र है तो न्यूटन की विधि बड़े समय को जीतती है।

उस ने कहा, विश्वास-क्षेत्र न्यूटन-क्रायलोव तरीके आधुनिक बड़े पैमाने पर अनुकूलन में सोने के मानक हैं, और मैं केवल आगामी वर्षों में तंत्रिका जाल में वृद्धि के लिए उनके उपयोग की उम्मीद करूंगा क्योंकि लोग बड़ी और बड़ी समस्याओं को हल करना चाहते हैं। (और साथ ही संख्यात्मक अनुकूलन में अधिक से अधिक लोग मशीन सीखने में रुचि रखते हैं)


मुझे लगता है कि आप गलत हैं। लोग 90 के दशक से nnets का उपयोग कर रहे हैं, और वे दूसरे क्रम के तरीकों से अच्छी तरह से वाकिफ हैं। समस्या ठीक है कि nnets तब सफल होता है जब बहुत अधिक डेटा होता है, जो तब बहुत सारे मापदंडों का समर्थन करता है, जिस स्थिति में दूसरे क्रम के तरीकों का समय और मेमोरी की कमी अप्रभावी होती है। उदाहरण के लिए देखें leon.bottou.org/publications/pdf/compstat-2010.pdf
seanv507

@ seanv507 वास्तव में नहीं। उस पेपर में दूसरे ऑर्डर के तरीकों की चर्चा में बहुत सारी खामियां हैं, जिसमें वे मान लेते हैं कि दूसरे ऑर्डर के तरीकों का इस्तेमाल करने के लिए पूरे घने हेस्सियन का निर्माण करना चाहिए। यह बस नहीं है कि यह आधुनिक बड़े पैमाने पर संख्यात्मक अनुकूलन में कैसे किया जाता है। आधुनिक दूसरे क्रम के तरीकों में एक निकटवर्ती समस्याओं को हल करके वैक्टर पर हेसियन की कार्रवाई की गणना करता है, और एक पुनरावृत्त (क्रायलोव) सॉल्वर के भीतर उनका उपयोग करता है। आम तौर पर पहला आंतरिक पुनरावृत्ति ढाल दिशा देता है, और बाद में पुनरावृत्तियों में सुधार होता है।
निक अल्जीरिया

हालाँकि मैं उस कागज़ का कोई ख़ास प्रशंसक नहीं हूँ, लेकिन मुझे नहीं लगता कि यह सच है। उन्होंने पहले हेसियन के विकर्ण और घटे हुए रैंक की चर्चा / कार्यान्वयन किया है। और मोती के 1994 के पेपर के बारे में हेसियन द्वारा तेजी से सटीक गुणा क्या है?
seanv507

सही। एक बार जब आपके पास तेजी से हेसियन एप्लिकेशन होते हैं (चाहे पर्लमटर के माध्यम से या आपके पास क्या है), तो आप क्रुज़ोव तरीकों के साथ क्रिस्लोव ग्रेडिएंट की तरह हेस्सियन सॉल्व कर सकते हैं। ऐसा करने से, एक व्यक्ति को रैखिक रूप से चलने वाले पुनरावृत्त पुनरावृत्त सॉल्वर पर गैर-कंडीशनिंग पुनरावृत्ति से दूर बीमार कंडीशनिंग कठिनाइयों को प्रभावी ढंग से स्थानांतरित करता है, जहां किसी के पास समस्या से निपटने के लिए बहुत सारी मशीनरी और पूर्व शर्त तकनीक उपलब्ध हैं। एक अच्छा संदर्भ नोकेडल और राइट द्वारा क्लासिक "न्यूमेरिकल ऑप्टिमाइज़ेशन" में विश्वास क्षेत्र सीजी-स्टीहाग पर अनुभाग है।
निक अल्जीरिया

मेरा कहना है कि हेसियन और संयुग्मक ग्रेडिएंट्स के गुणन को 1994 के बाद से nnets समुदाय में जाना जाता था। इसलिए मेरा मानना ​​है कि निश्चित रूप से एक कारण है कि SGD का उपयोग दूसरे ऑर्डर के तरीकों के बजाय किया जाता है (और मैं निश्चित रूप से इसका एक स्पष्ट समाधान चाहूंगा कि यह क्यों है) )
seanv507
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.