मुझे पार्टी में आने में देर हो सकती है, लेकिन ऐसा लगता है कि कुछ चीजें हैं जिन्हें यहां साफ करने की जरूरत है।
सबसे पहले: आउटपुट लेयर पर एक्टिवेशन फंक्शन अक्सर आपके कॉस्ट फंक्शन पर निर्भर करता है । यह व्युत्पन्न बनाने के लिए किया जाता है लागत समारोह के आदानों के संबंध में गणना करने के लिए आसान आखिरी परत पर।जी( x )∂ सी∂सी∂zसीz
एक उदाहरण के रूप में , हम प्रतिगमन सेटिंग में माध्य चुकता त्रुटि हानि का उपयोग कर सकते हैं। (लीनियर एक्टीवेशन फंक्शन) सेट करके , हम व्युत्पन्न
आप के लिए एक ही, आसान अभिव्यक्ति मिल अगर आप लॉजिस्टिक सिग्मॉइड या सॉफ्टमैक्स सक्रियण कार्यों के साथ क्रॉस-एन्ट्रापी लॉस को जोड़ते हैं।सी( y, जी( z)) ) = 12( y- जी( z)) )2जी( x ) = एक्स∂सी( y, जी( z)) )∂z= ∂सी( y, जी( z)) )∂जी( z))⋅ ∂जी( z))∂z= ∂∂जी( z))( 1)2( y- जी( z)) )2) ⋅ ∂∂z( z))= - ( y)- जी( z)) ) ⋅ 1= जी( z)) - वाई
∂सी∂z
यही कारण है कि बाइनरी / मल्टी-क्लास वर्गीकरण के लिए रिग्रेशन और लॉजिस्टिक / सॉफ्टमैक्स एक्टीवेशन के लिए अक्सर रैखिक सक्रियण का उपयोग किया जाता है। हालांकि, कुछ भी आपको अलग-अलग संयोजनों की कोशिश करने से रोकता है। यद्यपि लिए अभिव्यक्ति संभवतः इतनी अच्छी नहीं होगी, लेकिन इसका मतलब यह नहीं है कि आपका सक्रियण फ़ंक्शन खराब प्रदर्शन करेगा।∂सी∂z
दूसरा, मैं यह जोड़ना चाहूंगा कि बहुत सारे सक्रियण कार्य हैं जिनका उपयोग छिपी हुई परतों के लिए किया जा सकता है। सिग्मोइड्स (लॉजिस्टिक फंक्शन और हाइपरबोलिक टेंज़ेंट की तरह) वास्तव में अच्छी तरह से काम करने के लिए साबित हुए हैं, लेकिन जैसा कि जतिन ने संकेत दिया है , ये गायब होने वाले ग्रेडिएंट से पीड़ित होते हैं जब आपके नेटवर्क बहुत गहरे हो जाते हैं। उस स्थिति में ReLUs लोकप्रिय हो गए हैं। हालांकि मैं इस बात पर जोर देना चाहूंगा कि बहुत अधिक सक्रियण कार्य उपलब्ध हैं और विभिन्न शोधकर्ता नए की तलाश में रहते हैं (जैसे घातीय रैखिक इकाइयाँ (ईएलयू), गाऊसी त्रुटि रैखिक इकाइयाँ (जीईएलयू), ...) बेहतर गुण
निष्कर्ष निकालने के लिए: जब सबसे अच्छा सक्रियण कार्यों की तलाश हो, तो बस रचनात्मक रहें। विभिन्न चीजों को आज़माएं और देखें कि क्या संयोजन सर्वश्रेष्ठ प्रदर्शन का नेतृत्व करते हैं।
परिशिष्ट: नुकसान कार्यों और सक्रियण के अधिक जोड़े के लिए, आप संभवतः (विहित) लिंक कार्यों की तलाश करना चाहते हैं