तंत्रिका नेटवर्क में प्रारंभिक भार यादृच्छिक क्यों होते हैं?


10

यह उन लोगों को मूर्खतापूर्ण लग सकता है जिनके पास तंत्रिका नेटवर्क के साथ बहुत अनुभव है, लेकिन यह मुझे परेशान करता है ...

मेरा मतलब है कि शुरुआती वज़न को बेतरतीब करने से आपको बेहतर परिणाम मिल सकते हैं जो प्रशिक्षित नेटवर्क की तरह कुछ हद तक नज़दीक होंगे, लेकिन यह ठीक इसके विपरीत भी हो सकता है, जबकि उचित वजन की सीमा के लिए 0.5 या कुछ अन्य औसत। मान एक अच्छा डिफ़ॉल्ट सेटिंग की तरह लगेगा ...

क्यों न्यूरॉन्स के लिए प्रारंभिक वजन उन सभी के लिए 0.5 के बजाय यादृच्छिक किया जा रहा है?


मेरे संपादन में क्या समस्या थी? क्या आपको लगता है कि आपको सुधार नहीं किया जा सकता है?
nbro

@nbro कई सवाल जोड़ता है, जो इसे बहुत व्यापक बनाता है ...
Matas Vaitkevicius

मैंने कौन से प्रश्न जोड़े जो आपकी पोस्ट में मौजूद नहीं हैं? मैंने केवल उन प्रश्नों के रूप में सुधार किया है जिन्हें आपने परिकल्पना के रूप में कहा था।
nbro

वैसे, आपका शब्दांकन भी सही नहीं है। वज़न को यादृच्छिक नहीं बनाया जा रहा है, लेकिन उन्हें बेतरतीब ढंग से आरंभ किया जा रहा है। ये दो अलग-अलग अवधारणाएं हैं और आपका मतलब दूसरा था। मेरा संपादन शब्दांकन में सुधार लाने के लिए था।
nbro

@nbro हाय, देखो मैं अप्राप्य नहीं था, और निश्चित रूप से तुम्हें नाराज नहीं करना चाहता था। मैं सवाल पूछने, शब्द बनाने और हर चीज में बुरी हूं। इसलिए मुझे खेद है अगर मैंने आपको नाराज किया है।
माटस वैतकेविसियस

जवाबों:


6

एक तंत्रिका नेटवर्क में प्रारंभिक भार को यादृच्छिक रूप से प्रारंभ किया जाता है क्योंकि तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए आमतौर पर उपयोग किए जाने वाले ढाल आधारित विधियां अच्छी तरह से काम नहीं करती हैं, जब सभी वजन समान मूल्य के लिए प्रारंभिक होते हैं। जबकि तंत्रिका नेटवर्क को प्रशिक्षित करने के सभी तरीके धीरे-धीरे आधारित नहीं हैं, उनमें से अधिकांश हैं, और यह कई मामलों में दिखाया गया है कि तंत्रिका नेटवर्क को एक ही मूल्य पर शुरू करने से नेटवर्क को एक इष्टतम समाधान पर परिवर्तित होने में अधिक समय लगता है। इसके अलावा, यदि आप अपने तंत्रिका नेटवर्क को फिर से प्राप्त करना चाहते हैं क्योंकि यह एक स्थानीय मिनीमा में फंस गया है, तो यह उसी स्थानीय मिनीमा में अटक जाएगा। उपरोक्त कारणों से, हम प्रारंभिक भार को एक स्थिर मान पर सेट नहीं करते हैं।

संदर्भ: जब आप एक ही मूल्य के वजन को इनिशियलाइज़ करते हैं तो बैकप्रॉपैगैशन काम क्यों नहीं करता है?


वास्तव में, वे टूट जाते हैं यदि सभी भार समान होते हैं।
क्वांक्स

9

आपको सभी को 0.5 पर असाइन नहीं करना चाहिए क्योंकि आपके पास "ब्रेक समरूपता" मुद्दा होगा।

http://www.deeplearningbook.org/contents/optimization.html

शायद पूरी निश्चितता के साथ ज्ञात एकमात्र संपत्ति यह है कि प्रारंभिक मापदंडों को विभिन्न इकाइयों के बीच " समरूपता को तोड़ने " की आवश्यकता है । यदि एक ही सक्रियण फ़ंक्शन वाली दो छिपी इकाइयाँ एक ही इनपुट से जुड़ी होती हैं, तो इन इकाइयों के अलग-अलग प्रारंभिक पैरामीटर होने चाहिए। यदि उनके पास एक ही प्रारंभिक पैरामीटर हैं, तो नियतात्मक लागत और मॉडल पर लागू एक नियतात्मक शिक्षण एल्गोरिथ्म लगातार इन दोनों इकाइयों को उसी तरह अपडेट करेगा। यहां तक ​​कि अगर मॉडल या प्रशिक्षण एल्गोरिथ्म विभिन्न इकाइयों के लिए अलग-अलग अपडेट की गणना करने के लिए स्टोचैस्टिसिटी का उपयोग करने में सक्षम है (उदाहरण के लिए, यदि ड्रॉपआउट वाली एक ट्रेन), तो आमतौर पर प्रत्येक इकाई को अन्य इकाइयों से अलग फ़ंक्शन की गणना करने के लिए प्रारंभ करना सबसे अच्छा है। इससे यह सुनिश्चित करने में मदद मिल सकती है कि आगे के प्रसार की अशक्त जगह में कोई इनपुट पैटर्न नहीं खोए हैं और कोई भी प्रचलित पैटर्न बैक-प्रचार के अशक्त स्थान में नहीं खोए हैं।


2

यह बहुत गहरा सवाल है। Overparameterized गहरे नेटवर्क के लिए ग्रेडिएंट वंश के अभिसरण के प्रमाण के साथ हाल ही में कागजात की श्रृंखला थी (उदाहरण के लिए, डीप न्यूरल नेटवर्क्स के ग्रैडिएंट डिसेंट डिसॉर्डर ग्लोबल मिनिमा ढूँढता है , ओवर-पैरामिस्टिक या स्टोचैस्टिक ग्रेडिएंट डिसेंट के माध्यम से डीप लर्निंग के लिए एक कनवर्जेन्स थ्योरी) ReLU नेटवर्क )। उन सभी को वजन के यादृच्छिक गाऊसी वितरण पर स्थिति प्रमाण। यह महत्वपूर्ण है कि प्रमाण दो कारकों पर निर्भर करते हैं:

  1. रैंडम वेट ReLU सांख्यिकीय रूप से कंप्रेसिव मैपिंग (रैखिक परिवर्तन तक) करते हैं

  2. रैंडम वेट किसी भी इनपुट डिस्ट्रीब्यूशन के लिए सेपरेशन को अलग करता है - अगर इनपुट सैंपल डिफरेंशियल होते हैं तो नेटवर्क प्रॉपेगेशन उन्हें इंडिविजुअलिशेबल नहीं बना देगा।

नियतात्मक मैट्रिक्स के साथ पुन: पेश करने के लिए उन गुणों को बहुत मुश्किल है, और भले ही वे नियतात्मक मैट्रिक्स के साथ प्रतिलिपि प्रस्तुत करने योग्य हों NULL-space (प्रतिकूल उदाहरणों का डोमेन) संभवत: विधि को अव्यवहारिक बना देगा, और ढाल वंश के दौरान उन गुणों के अधिक महत्वपूर्ण संरक्षण की संभावना विधि को अव्यवहारिक बना देगा। लेकिन कुल मिलाकर यह बहुत मुश्किल है लेकिन असंभव नहीं है, और उस दिशा में कुछ शोध का वारंट कर सकता है। अनुरूप स्थिति में, संपीड़ित संवेदन में नियतात्मक मैट्रिक्स के लिए प्रतिबंधित आइसोमेट्री संपत्ति के लिए कुछ परिणाम थे ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.