क्या बैच सामान्यीकरण का मतलब है कि सिग्मोइड्स ReLUs से बेहतर काम करते हैं?


9

बैच सामान्यीकरण और ReLUs दोनों गायब होने वाली ढाल समस्या के समाधान हैं। यदि हम बैच सामान्यीकरण का उपयोग कर रहे हैं, तो क्या हमें सिग्मोइड का उपयोग करना चाहिए? या वहाँ ReLUs की विशेषताएं हैं जो उन्हें बैटचन के उपयोग के समय भी सार्थक बनाते हैं?

मुझे लगता है कि बैटमोरॉर्म में किया गया सामान्यीकरण शून्य सक्रियणों को नकारात्मक भेजेगा। क्या इसका मतलब यह है कि बैटकमर्म "मृत ReLU" समस्या को हल करता है?

लेकिन तन्हा और तार्किकता की निरंतर प्रकृति आकर्षक बनी हुई है। अगर मैं बैटचोरम का उपयोग कर रहा हूं, तो क्या टैन ReLU से बेहतर काम करेगा?

मुझे यकीन है कि उत्तर निर्भर करता है । तो, आपके अनुभव में क्या काम किया है, और आपके आवेदन की मुख्य विशेषताएं क्या हैं?


यहां तक ​​कि अगर कागज सक्रियण से पहले बैचमोर्म का उपयोग करने का सुझाव देता है, तो यह व्यवहार में पाया गया है कि बीएन के बाद लागू होने पर बेहतर समाधान उपजते हैं। अगर मुझे ऐसी किसी चीज की अनदेखी नहीं करनी चाहिए जिसका मतलब यह होना चाहिए कि बाद वाले मामले में, बीएन की सक्रियता पर कोई प्रभाव नहीं पड़ता है। लेकिन निश्चित रूप से, यह एक खुला सवाल है, अगर बीएन पहले से लागू होने पर और ReLU की तुलना में एक और सक्रियण के साथ बेहतर काम करेगा। मेरी राय में, नहीं। क्योंकि ReLU में अभी भी अन्य फायदे हैं, जैसे कि एक सरल व्युत्पत्ति। लेकिन मैं भी उत्सुक हूं। शायद किसी ने इस क्षेत्र में अनुभव किए हों।
oezguensi

जवाबों:


1

देखें, बैच-सामान्यीकरण के पीछे मूल अवधारणा यह है (एक मध्यम लेख से अंश) -

हम सक्रियण को समायोजित और स्केल करके अपनी इनपुट परत को सामान्य करते हैं। उदाहरण के लिए, जब हमारे पास 0 से 1 तक और कुछ में 1 से 1000 तक की सुविधाएँ हैं, तो हमें सीखने की गति बढ़ाने के लिए उन्हें सामान्य करना चाहिए। यदि इनपुट लेयर से लाभ हो रहा है, तो छिपे हुए लेयर के मानों के लिए भी यही काम क्यों न करें, जो हर समय बदल रहे हैं, और प्रशिक्षण की गति में 10 गुना या अधिक सुधार हो सकता है।

लेख यहाँ पढ़ें।

यही कारण है कि हम बैच-सामान्यीकरण का उपयोग करते हैं। अब आपके प्रश्न पर आते हैं, देखें कि सिग्मॉइड का आउटपुट 0 और 1 के बीच की कमी है, और यह कि बैच-सामान्यीकरण का आदर्श वाक्य क्या है। यदि हम सिग्मॉइड सक्रियण के साथ बाच-सामान्यीकरण का उपयोग करते हैं, तो यह सिग्मॉइड (0) से सिग्मॉइड (1) के बीच विवश होगा, जो 0.5 से 0.73 ~ के बीच हैआरसी1/(1+1/)। लेकिन अगर हम बैच-सामान्यीकरण के साथ ReLU का उपयोग करते हैं तो आउटपुट 0 से 1 तक फैल जाएगा जो कि हमारे लिए सबसे अच्छी बात है, आखिरकार हम चाहते हैं कि आउटपुट जितना विविध हो, उतना अधिक हो। इसलिए मुझे लगता है कि अन्य गतिविधियों के बीच ReLU सबसे अच्छा विकल्प होगा।


0

पागल आदमी ने आपके सवाल को बैच सामान्य करने के बारे में सही तरीके से जवाब दिया और मुझे आपके दूसरे भाग का जवाब देने दिया कि निरंतर कार्य कैसे आकर्षक लग सकते हैं, लेकिन उन सभी की तुलना में बेहतर है और यह कथन मेरी तरफ से नहीं है। हिंटन ने इसे उद्धृत किया "हम लोग गूंगे थे जो सिग्मॉइड को एक सक्रियण फ़ंक्शन के रूप में उपयोग कर रहे थे और इस अहसास के लिए 30 साल लग गए कि इसके रूप को समझे बिना कभी भी अपने न्यूरॉन को सीखने की स्थिति में न जाने दें क्योंकि यह हमेशा संतृप्त होता है। क्या यह व्युत्पन्न है और उन्होंने खुद को और अन्य सभी लोगों को गूंगा कहा "। केवल एक सक्रियण फ़ंक्शन का चयन करने के लिए, क्योंकि यह निरंतर है और यह नहीं देख रहा है कि यह आपके न्यूरॉन को कैसे प्रभावित करता है '

नोट: यदि आप तंत्रिका जाल का अध्ययन कर रहे हैं, तो मैं आपको सलाह दूंगा कि आप तंत्रिका जाल को बड़े और गहरे मिश्रित कार्यों के रूप में सोचें, ताकि यह समझ सके कि क्या काम करता है और क्यों काम करता है आपको यह समझने की आवश्यकता है कि कैसे एक तंत्रिका जाल कुछ उच्च आयाम में डेटा का कई गुना बनाता है "प्रतिनिधित्व करता है" "वह डेटा जिसमें कई गुना अच्छाई आपके कार्यों की पसंद पर निर्भर करती है और एक फ़ंक्शन इनपुट के रूप में दिए जाने पर अन्य फ़ंक्शन आउटपुट को कैसे बदलता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.