जब मैं सक्रियण क्रियाओं को मिलाता हूं तो क्या होता है?

कई सक्रियण कार्य हैं, जैसे कि ReLU, sigmoid या । जब मैं सक्रियण क्रियाओं को मिलाता हूं तो क्या होता है? $\tanh$

मैंने हाल ही में पाया कि Google ने Swish सक्रियण फ़ंक्शन विकसित किया है जो (x * sigmoid) है। सक्रियण फ़ंक्शन को बदलकर क्या यह XOR समस्या जैसी छोटी तंत्रिका नेटवर्क समस्या पर सटीकता बढ़ा सकता है?

— JSChang
स्रोत

सामान्य सक्रियण फ़ंक्शंस के संयोजन के व्यवहार का सामान्य उत्तर यह है कि कैलकुलस के नियमों को लागू किया जाना चाहिए, विशेष रूप से विभेदक परिकलन, परिणाम इकट्ठे फ़ंक्शन के गुणों के बारे में सुनिश्चित करने के लिए प्रयोग के माध्यम से प्राप्त किए जाने चाहिए, और अतिरिक्त जटिलता की संभावना है अभिकलन समय बढ़ाएँ। इस तरह की वृद्धि का अपवाद तब होगा जब संयोजन प्रदान करता है अभिसरण लाभ की तुलना में संयोजन का कम्प्यूटेशनल बोझ छोटा है।

यह स्विश का सच प्रतीत होता है, जिसे सक्रियण फ़ंक्शन के रूप में परिभाषित नाम दिया गया है

च (एक्स) = एक्स एस (β एक्स),

$f(x) = x \, \mathbb{S}(\beta x) \; \text{,}$

जहां स्विश सक्रियण फ़ंक्शन है और सिग्मॉइड फ़ंक्शन है। ध्यान दें कि स्विश कड़ाई से सक्रियण कार्यों का संयोजन नहीं है। यह सिग्मॉइड फ़ंक्शन के अंदर हाइपर-पैरामीटर के अलावा और सिग्मॉइड फ़ंक्शन परिणाम में इनपुट के गुणन के माध्यम से बनता है । $f()$ $\mathbb{S}$ $\beta$

यह Google द्वारा विकसित किया गया प्रतीत नहीं होता है। मूल रूप से गुमनाम रूप से प्रस्तुत किया गया पेपर (ICLR 2018 पेपर के रूप में डबल ब्लाइंड रिव्यू के लिए), एक्टिवेशन फंक्शंस की खोज , 2017 के आसपास प्रजीत रामचंद्रन, बैरेट ज़ोफ़ और क्वोक वी। ले द्वारा लिखा गया था। यह उनका दावा है।

हमारे प्रयोगों से पता चलता है कि सबसे अच्छा खोजा गया सक्रियण फ़ंक्शन, ... स्विश, ... कई चुनौतीपूर्ण डेटासेट में गहरे मॉडल पर ReLU से बेहतर काम करता है।

खगोलीय रूप से दुर्लभ मामले, प्रभाव सटीकता, विश्वसनीयता और कम्प्यूटेशनल दक्षता को छोड़कर, किसी एक परत को सक्रियण फ़ंक्शन में कोई भी परिवर्तन। क्या परिवर्तन महत्वपूर्ण है सामान्यीकृत नहीं किया जा सकता है। यही कारण है कि नए विचारों को परंपरागत रूप से उपयोगिता ¹ को प्राप्त करने के लिए उपयोग किए जाने वाले डेटा सेट के खिलाफ परीक्षण किया जाता है ।

सक्रियण फ़ंक्शंस को संयोजित करना नए सक्रियण फ़ंक्शंस बनाने के लिए सामान्य नहीं है। उदाहरण के लिए, एलेक्सनेट उन्हें संयोजित नहीं करता है। ^२ । हालांकि, यह एक एकल, प्रभावी नेटवर्क डिजाइन की विभिन्न परतों में विभिन्न सक्रियण कार्यों का उपयोग करने के लिए बहुत आम है।

फुटनोट

[१] क्या ये परंपराएँ पूर्वाग्रह पैदा करती हैं, यह एक और सवाल है। जो लोग स्वीडिश कंप्यूटर वैज्ञानिक इवर हेजलमर जैकबसन या 6 सिग्मा विचारों द्वारा अग्रणी उपयोग के मामले के विश्लेषण के सिद्धांत का पालन करते हैं, वे कहेंगे कि ये परीक्षण इकाई परीक्षण हैं, वास्तविक दुनिया के उपयोग के मामलों के खिलाफ कार्यात्मक परीक्षण नहीं हैं, और उनके पास एक बिंदु है।

[२] किसी अन्य गलत उत्तर से उत्पन्न होने वाली भ्रांतियों को दूर करने के लिए, एलेक्सनेट, इस नाम को डीप कॉन्टेक्शनल न्यूरल नेटवर्क्स (२०१२) के साथ एलेक्सनेट क्रिजव्स्की, इल्या सेस्कुवर, और जेफ्री ई। हिंटन द्वारा यूनिवर्सिटी में डीप कंफ्यूजनियल न्यूरल नेटवर्क्स (२०१२) के साथ दिए गए दृष्टिकोण को दिया गया है । टोरंटो, नए लोगों को बनाने के लिए सक्रियण कार्यों के संयोजन को शामिल नहीं करता है। वे यह लिखते हैं।

अंतिम पूरी तरह से जुड़े परत का आउटपुट 1000-तरफा सॉफ्टमैक्स को खिलाया जाता है जो 1000 वर्ग लेबल से अधिक का वितरण करता है।

...

ReLU गैर-रेखीयता हर आक्षेप और पूरी तरह से जुड़े परत के आउटपुट पर लागू होती है। आंतरिक परतें शुद्ध ReLU हैं और आउटपुट परत सॉफ्टमैक्स है।

एलेक्सनेट एप्रोच की परतों की श्रृंखला में उनके द्वारा उपयोग किए गए कन्वेन्शन कर्नेल और पूलिंग लेयर्स भी हैं, और 2012 में इमेजनेट प्रतियोगिता जीतने के बाद से डिजाइन ने आम उपयोग में लिया है। अन्य तरीकों ने बाद की प्रतियोगिताओं में जीत हासिल की है।

— डगलस डसेको
स्रोत