तंत्रिका जाल में tanh बनाम सिग्मॉइड


16

मैं इस तथ्य के लिए पहले से माफी मांगता हूं कि मैं अभी भी इस पर गति करने के लिए आ रहा हूं। मैं अपने न्यूरॉन सक्रियण फ़ंक्शन के लिए टैन्ह (मानचित्र -1 से 1) बनाम सिग्मॉइड (मानचित्र 0 से 1) का उपयोग करने के पेशेवरों और विपक्षों को समझने की कोशिश कर रहा हूं। मेरे पढ़ने से यह मामूली अंतर के साथ एक छोटी सी बात की तरह लग रहा था। अपनी समस्याओं के लिए अभ्यास में मुझे लगता है कि सिग्मॉइड को प्रशिक्षित करना और अजीब रूप से आसान है, सिग्मॉइड सामान्य समाधान को बेहतर खोजने के लिए प्रकट होता है। इससे मेरा मतलब है कि जब सिग्मॉइड संस्करण का प्रशिक्षण किया जाता है तो यह संदर्भ (अप्रशिक्षित) डेटा सेट पर अच्छा करता है, जहां टैन्ह संस्करण संदर्भ पर खराब प्रदर्शन करते हुए प्रशिक्षण डेटा पर सही उत्तर प्राप्त करने में सक्षम होता है। यह समान नेटवर्क आर्किटेक्चर के लिए है।

मेरे पास एक अंतर्ज्ञान यह है कि सिग्मॉइड के साथ, न्यूरॉन के लिए लगभग पूरी तरह से बंद करना आसान है, इस प्रकार बाद की परतों के लिए कोई इनपुट प्रदान नहीं करता है। टैन के पास यहां एक कठिन समय है क्योंकि इसे अपने इनपुट को पूरी तरह से रद्द करने की आवश्यकता है, अन्यथा यह हमेशा अगली परत को एक मूल्य देता है। शायद यह अंतर्ज्ञान हालांकि गलत है।

लंबी पोस्ट। निचला रेखा, व्यापार क्या है, और क्या इससे कोई बड़ा बदलाव होना चाहिए?

जवाबों:


23

साइमन हेकिन की "न्यूरल नेटवर्क्स: ए कॉम्प्रिहेंसिव फाउंडेशन" पुस्तक में निम्नलिखित व्याख्या है, जिसमें से मैं उद्धृत करता हूं:

सीखने के समय को कम से कम करने के लिए, गैर-शून्य माध्य इनपुट के उपयोग से बचना चाहिए। अब, एक बहुपरत परसेप्ट्रॉन की पहली छिपी परत में एक न्यूरॉन पर लगाए गए सिग्नल वेक्टर रूप में इंसोफ़र संबंधित है, नेटवर्क पर अपने आवेदन से पहले एक्स के प्रत्येक तत्व से माध्य को निकालना आसान है । लेकिन नेटवर्क की शेष छिपी और आउटपुट परतों में न्यूरॉन्स पर लगाए गए संकेतों के बारे में क्या? इस प्रश्न का उत्तर नेटवर्क में उपयोग किए जाने वाले सक्रियण फ़ंक्शन के प्रकार में निहित है। यदि सक्रियण फ़ंक्शन गैर-सममित है, जैसा कि सिग्मोइड फ़ंक्शन के मामले में, प्रत्येक न्यूरॉन का उत्पादन अंतराल [ 0 , 1 ] तक सीमित है । इस तरह की पसंद व्यवस्थित पूर्वाग्रह के एक स्रोत का परिचय देती हैxx[0,1]नेटवर्क की पहली परत से परे स्थित उन न्यूरॉन्स के लिए। इस समस्या को दूर करने के लिए हमें एक एंटीसिमेट्रिक ऐक्टिवेशन फंक्शन जैसे कि हाइपरबोलिक टेंज़ेंट फंक्शन का इस्तेमाल करना होगा। इस बाद की पसंद के साथ, प्रत्येक न्यूरॉन के आउटपुट को अंतराल में सकारात्मक और नकारात्मक दोनों मूल्यों को मानने की अनुमति है , इस मामले में इसके शून्य होने की संभावना है। यदि नेटवर्क कनेक्टिविटी बड़ी है, तो एंटीसिमेट्रिक ऐक्टिवेशन फंक्शंस के साथ बैक-प्रोपगेशन लर्निंग गैर-सममित सक्रियण फ़ंक्शंस के साथ एक समान प्रक्रिया की तुलना में तेज़ी से अभिसरण कर सकता है, जिसके लिए अनुभवजन्य साक्ष्य (LeCun et al। 1991) भी है।[1,1]

उद्धृत संदर्भ है:

  • Y. LeCun, I. Kanter, और SASolla: "त्रुटि सतहों का दूसरा-क्रम गुण: सीखने का समय और सामान्यीकरण", तंत्रिका सूचना प्रसंस्करण प्रणालियों में अग्रिम, वॉल्यूम। 3, पीपी। 918-924, 1991।

एक और दिलचस्प संदर्भ निम्नलिखित है:

  • Y. LeCun, L. Bottou, G. Orr और K. Muller: " कुशल BackProp ", Orr, G. और Muller K. (Eds) में, न्यूरल नेटवर्क्स: ट्रिक्स ऑफ़ द ट्रेड, स्प्रिंगर, 1998

ReLU न्यूरॉन्स अपने पूर्वाग्रह के बावजूद काफी अच्छा काम करते हैं। क्या आपके पास उस पर कोई विचार है?
-कुन

@ अरक-कुन, मुझे रेउल न्यूरॉन्स के बारे में बहुत कुछ नहीं पता है, लेकिन मैं आपको इस पेपर को संदर्भित कर सकता हूं जहां लेखक ऐसे सक्रियण फ़ंक्शन के फायदे बताते हैं। एक्स। ग्लोरोट, ए। बोर्डेस और वाई। बेंगियो "डीप स्पार्स रेक्टिफायर न्यूरल नेटवर्क AISTATS 2011. jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf
tiagotvv

1

ये दो सक्रियण कार्य बहुत समान हैं, लेकिन ऑफसेट हैं। मेरे मूल नेटवर्क में पूर्वाग्रह शब्द नहीं थे। पक्षपात जोड़ने के बाद से, सब कुछ बहुत अधिक स्थिर है। मेरे अनुभव के आधार पर, मैं कहूंगा कि इनमें से एक या जटिल के लिए एक विशिष्ट अनुप्रयोग के लिए बेहतर काम हो सकता है, संभवतः अनजाने कारण, लेकिन सही दृष्टिकोण में पूर्वाग्रह की शर्तें शामिल हैं, इसलिए सक्रियण ऑफसेट पर निर्भरता कम या समाप्त हो सकती है।


0

tanh आउटपुट नोड्स पर सक्रियण (द्विआधारी) क्रॉस एन्ट्रापी नुकसान के साथ काम नहीं करते हैं:

एल=-1nΣमैं(yमैंलॉग(पीमैं)+(1-yमैं)लॉग(1-पीमैं))

कहाँ पे yमैं नमूना के लिए लक्ष्य मूल्य है मैं तथा पीमैं नमूने के लिए नेटवर्क का आउटपुट है मैं

अगर पीमैं एक का उत्पादन है tanhफ़ंक्शन आप अंत में नकारात्मक मूल्यों के लघुगणक ले रहे हैं। इसलिए आउटपुट पर सिग्मॉइड सक्रियण कार्य इन मामलों के लिए एक बेहतर विकल्प हैं।


आप उन्हें स्केल कर सकते हैं, हालाँकि। tanh (X) -1 व्युत्पन्न साझा करता है, और इसमें नकारात्मक लॉग की समस्या नहीं है
पाब्लो अरनू गोंजालेज
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.