सीएनएन कैसे लुप्त होती क्रमिक समस्या से बचता है


15

मैं कंफर्टेबल न्यूरल नेटवर्क के बारे में बहुत कुछ पढ़ता रहा हूं और सोच रहा था कि वे गायब होने वाली ढाल की समस्या से कैसे बचें। मुझे पता है कि गहरे विश्वास वाले नेटवर्क एकल स्तर के ऑटो-एनकोडर या अन्य पूर्व-प्रशिक्षित उथले नेटवर्क को रोकते हैं और इस प्रकार इस समस्या से बच सकते हैं लेकिन मुझे नहीं पता कि यह सीएनएन में कैसे बचा जाता है।

विकिपीडिया के अनुसार :

"उपर्युक्त" लुप्त होने वाली समस्या के बावजूद, "GPU की बेहतर प्रसंस्करण शक्ति कई परतों के साथ गहरे फीडफ़ॉर्मल न्यूरल नेटवर्क के लिए सादा बैक-प्रसार संभव बनाती है।"

मुझे समझ नहीं आता कि GPU प्रसंस्करण इस समस्या को क्यों दूर करेगा?


2
क्या विकिपीडिया लेख उचित नहीं था कि क्यों GPU गायब होने वाली समस्या को दूर करने में मदद करता है? क्या यह इसलिए है कि भले ही ग्रेडिएंट्स छोटे हैं, क्योंकि GPU बहुत तेज़ हैं फिर भी हम GPU के लिए बहुत सारे स्टेप्स करके पैरामीटर को बेहतर बनाने का प्रबंधन करते हैं?
चार्ली पार्कर

2
बिल्कुल सही। लुप्त होती क्रमिक समस्या यही कारण है कि निचली परत के वज़न को बहुत कम दर पर अद्यतन किया जाता है, और इस प्रकार नेटवर्क को प्रशिक्षित करने में हमेशा के लिए लग जाता है। लेकिन, GPU के रूप में आप कम समय में अधिक संगणना (वजन के अधिक अद्यतन) कर सकते हैं, अधिक से अधिक GPU प्रसंस्करण के साथ, गायब होने की समस्या कुछ हद तक गायब हो जाती है।
संग्राम

@CharlieParker, क्या आप विस्तृत GPU's are fast correlated with vanishing gradientsकर सकते हैं, मैं कई मैट्रिक्स गुणन को संसाधित करने के लिए बड़ी मेमोरी बैंडविड्थ के साथ तेज तर्क को समझ सकता हूं! लेकिन क्या आप यह बता सकते हैं कि डेरिवेटिव के साथ इसका क्या संबंध है? गायब हो जाने ढाल मुद्दा वजन आरंभीकरण साथ बहुत कुछ करने जा रहा है , यह नहीं है!
अनु

जवाबों:


13

लुप्त होती क्रमिक समस्या के कारण हमें सीखने की दर में ढाल मूल के साथ उपयोग करने की आवश्यकता होती है जिसके लिए अभिसरण करने के लिए कई छोटे चरणों की आवश्यकता होती है। यह एक समस्या है यदि आपके पास एक धीमा कंप्यूटर है जो प्रत्येक चरण के लिए लंबा समय लेता है। यदि आपके पास एक तेज़ जीपीयू है जो एक दिन में कई और कदम उठा सकता है, तो यह कम समस्या है।

लुप्त हो रही समस्या से निपटने के कई तरीके हैं। मुझे लगता है कि CNNs के लिए सबसे बड़ा प्रभाव सिग्मॉइड नॉनलाइनियर इकाइयों से सुधारित रैखिक इकाइयों पर स्विच करने से आया है। यदि आप एक सरल तंत्रिका नेटवर्क पर विचार करते हैं, जिसकी त्रुटि केवल y , j के माध्यम से भार w i j पर निर्भर करती हैEwijyj

yj=f(iwijxi),

इसका ढाल है

wijE=Eyjyjwij=Eyjf(iwijxi)xi.

अगर रसद अवग्रह समारोह है, ' बड़े आदानों के साथ-साथ छोटे आदानों के लिए शून्य के करीब हो जाएगा। यदि एफ एक सुधारा हुआ रैखिक इकाई है,fff

व्युत्पन्न केवल नकारात्मक इनपुट के लिए शून्य है और सकारात्मक इनपुट के लिए 1 है। एक और महत्वपूर्ण योगदान वजन को ठीक से शुरू करने से आता है। यह पेपर अधिक विवरणों में चुनौतियों को समझने के लिए एक अच्छा स्रोत की तरह दिखता है (हालांकि मैंने इसे अभी तक नहीं पढ़ा है):

f(u)=max(0,u),

http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf


2
मैं सुधारा हुआ रैखिक इकाइयों के बारे में थोड़ा हैरान हूँ। हां, सिग्मोइड्स आदि के लिए ढाल अक्सर बहुत छोटा होता है - लेकिन रेक्टिफाइड रैखिक इकाइयों के लिए यह अक्सर शून्य होता है। क्या यह बदतर नहीं है? इस प्रकार, यदि एक इकाई का वजन दुर्भाग्यपूर्ण है, तो वे कभी भी नहीं बदलेंगे।
हंस-पीटर स्टॉर

2
इस बारे में सोचकर, लीक और / या शोर ReLUs उस कारण के लिए उपयोग में हो सकते हैं।
सूर्यास्त

5
आपका पहला वाक्य सत्य क्यों है? Ie "लुप्त होती क्रमिक समस्या के कारण हमें छोटे सीखने की दरों को ढाल वंश के साथ उपयोग करने की आवश्यकता होती है जिसके लिए अभिसरण करने के लिए कई छोटे चरणों की आवश्यकता होती है।" लुप्त होती क्रमिक समस्या से निपटने के लिए हमें छोटी अधिगम दरों की आवश्यकता क्यों है? यदि ग्रेडिएंट्स गायब होने के कारण पहले से ही छोटे हैं, तो मुझे उम्मीद होगी कि उन्हें छोटे बनाने से चीजें खराब हो सकती हैं।
चार्ली पार्कर

2
अच्छा सवाल, मुझे उस कथन को बेहतर तरीके से समझाना चाहिए था। लुप्त हो रही ढाल समस्या यह नहीं है कि सभी ग्रेडिएंट छोटे हैं (जिन्हें हम बड़ी सीखने की दरों का उपयोग करके आसानी से ठीक कर सकते हैं), लेकिन यह कि नेटवर्क के माध्यम से बैकप्रोपैगेट के रूप में ग्रेडिएंट गायब हो जाते हैं। यानी, ग्रेडर कुछ परतों में छोटे होते हैं लेकिन अन्य परतों में बड़े होते हैं। यदि आप बड़ी सीखने की दरों का उपयोग करते हैं, तो पूरी चीज फट जाती है (क्योंकि कुछ ग्रेडिएंट बड़े हैं), इसलिए आपको एक छोटी सी सीखने की दर का उपयोग करना होगा। अधिक हाइपरपैरामीटर शुरू करने की कीमत पर, कई शिक्षण दरों का उपयोग करना समस्या को संबोधित करने का एक और तरीका है।
लुकास

3
मेरा तर्क है कि सीखने की दर ज्यादातर विस्फोट की समस्या से जुड़ी है। एक अतिशयोक्तिपूर्ण रूप से कम सीखने की दर के साथ ढाल को कम करने से गायब होने वाले ग्रेडिएंट को रोकना नहीं पड़ता है, यह सिर्फ प्रभाव को धीमा कर देता है क्योंकि सीखने को काफी धीमा कर देता है। इसका प्रभाव स्वयं बारंबारता के दोहराए जाने और छोटे मूल्यों के गुणन के कारण होता है। बेशक, सीखने की छोटी दरों (कंप्यूटिंग शक्ति के कारण) पर जाने का एक चलन है, लेकिन इसका लुप्तप्राय ग्रेडिएटर्स से कोई लेना-देना नहीं है क्योंकि यह केवल नियंत्रित करता है कि राज्य की जगह कितनी अच्छी तरह से खोजी गई है (स्थिर स्थितियों को देखते हुए)।
रनडोसन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.