क्या तंत्रिका नेटवर्क (जैसे, दृढ़ तंत्रिका नेटवर्क) में नकारात्मक भार हो सकते हैं?


13

जब हम सभी सक्रियण परतों के लिए ReLU का उपयोग करते हैं, तो गहन अवक्षेपण तंत्रिका नेटवर्क के लिए नकारात्मक भार (पर्याप्त अवधि के बाद) होना संभव है?


मुझे कोई कारण नहीं दिखता कि वे नकारात्मक क्यों नहीं हो सकते। क्या आपके मन में कोई विशेष कारण / अवलोकन है?
सोबी

मैं सिर्फ SGD की प्रक्रिया की कल्पना कर रहा हूं और सोचता हूं कि क्या नकारात्मक वजन सामान्य और संभव है।
रॉकइंटरस्टार

उसने सोचा कि क्योंकि "वजन" synapses जैसा दिखता है, न्यूरॉन्स के बीच संबंध, इसलिए हम एक न्यूरॉन की ओर -2 synapses कैसे हो सकते हैं ?? मैं गूगल पर एक ही बात की खोज के बाद यहाँ ठोकर खाई ... मुझे लगता है कि यह वैसे भी संभव हो सकता है, यह अंततः एक लापता synapse या लिंक और "हॉप्स" का अर्थ हो सकता है कि दूसरी तरफ से बी तक पहुंचने के लिए जो पथरी से घटाया जाए, लेकिन मैं वास्तव में निश्चित नहीं हूं, सिर्फ सोच रहा हूं
कोशिश

जवाबों:


10

रेक्टिफाइड लीनियर यूनिट्स (ReLUs) केवल न्यूरॉन्स के उत्पादन को गैर-नकारात्मक बनाते हैं। नेटवर्क के पैरामीटर, हालांकि, प्रशिक्षण डेटा के आधार पर सकारात्मक या नकारात्मक हो सकते हैं।

यहाँ दो कारण हैं जो मैं अभी सोच सकता हूँ कि (सहज रूप से) कुछ पैरामीटर नकारात्मक क्यों हो जाते हैं:

  1. नियमितीकरण के मापदंडों (उर्फ वजन क्षय); पैरामीटर मान में भिन्नता भविष्यवाणी को संभव बनाती है, और यदि पैरामीटर शून्य के आसपास केंद्रित होते हैं (अर्थात उनका मतलब शून्य के करीब है), तो उनका मानदंड (जो एक मानक नियमित है) कम है।2

  2. हालांकि परत मापदंडों के संबंध में एक परत के आउटपुट के ग्रेडिएंट परत पर इनपुट पर निर्भर करते हैं (जो हमेशा सकारात्मक मानते हैं कि पिछली परत अपने आउटपुट को एक ReLU से गुजरती है), हालांकि, त्रुटि का ग्रेडिएंट (जो आता है) अंतिम आउटपुट परतों के करीब परतों से) सकारात्मक या नकारात्मक हो सकता है, जिससे अगले ग्रेडिएंट कदम उठाने के बाद कुछ मान मानों को नकारात्मक बनाना संभव हो जाता है। विशेष रूप से, , , और को तंत्रिका नेटवर्क में एक परत के इनपुट, आउटपुट और मापदंडों को निरूपित करता । इसके अलावा, कुछ प्रशिक्षण नमूने द्वारा प्रेरित नेटवर्क की अंतिम त्रुटि है। संबंध में त्रुटि की ढाल की गणना निम्नानुसार की जाती हैहे डब्ल्यू डब्ल्यू IOwEw हेकश्मीर=हे,कश्मीरEw=(k=1KEOk)Okw ; ध्यान दें कि (नीचे चित्र देखें):Ok=O,k

यहां छवि विवरण दर्ज करें


1

कल्पना करें कि आपके पास इष्टतम वजन है जो सभी गैर-नकारात्मक हैं।

अब कुछ इनपुट चर । इस सेटअप के लिए इष्टतम नेटवर्क किनारों के वजन के साथ है, इसलिए नए वज़न गैर-सकारात्मक हैं। { x ' मैं , y }xi=xi{xi,y}


-3

जब तक आप Leaky ReLU उदाहरण के लिए एक और सक्रियण फ़ंक्शन का उपयोग नहीं करते हैं। पहले एक के बाद परतों के सही वजन गैर-नकारात्मक हैं चाहे प्रशिक्षण में कितने युग हो।


1
बहुत धन्यवाद! क्या आप इस बारे में थोड़ा और व्याख्या कर सकते हैं कि लीक रेएलयू कैसे नकारात्मक वजन को जन्म दे सकता है?
RockTheStar

लगता है जैसे दावा सच नहीं है। मैंने ReLU सक्रिय नेटवर्क पर प्रशिक्षण चलाया है, परिशोधन परिवर्तन ("Ws") में मैट्रिसेस और ऑफ़सेट्स ("b"), जिसे मैं इस प्रश्न में वज़न के रूप में संदर्भित करता हूं, नकारात्मक मान प्राप्त करते हैं।
उन्हें
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.