जब मैं सक्रियण क्रियाओं को मिलाता हूं तो क्या होता है?


10

कई सक्रियण कार्य हैं, जैसे कि ReLU, sigmoid या । जब मैं सक्रियण क्रियाओं को मिलाता हूं तो क्या होता है?tanh

मैंने हाल ही में पाया कि Google ने Swish सक्रियण फ़ंक्शन विकसित किया है जो (x * sigmoid) है। सक्रियण फ़ंक्शन को बदलकर क्या यह XOR समस्या जैसी छोटी तंत्रिका नेटवर्क समस्या पर सटीकता बढ़ा सकता है?

जवाबों:


2

सामान्य सक्रियण फ़ंक्शंस के संयोजन के व्यवहार का सामान्य उत्तर यह है कि कैलकुलस के नियमों को लागू किया जाना चाहिए, विशेष रूप से विभेदक परिकलन, परिणाम इकट्ठे फ़ंक्शन के गुणों के बारे में सुनिश्चित करने के लिए प्रयोग के माध्यम से प्राप्त किए जाने चाहिए, और अतिरिक्त जटिलता की संभावना है अभिकलन समय बढ़ाएँ। इस तरह की वृद्धि का अपवाद तब होगा जब संयोजन प्रदान करता है अभिसरण लाभ की तुलना में संयोजन का कम्प्यूटेशनल बोझ छोटा है।

यह स्विश का सच प्रतीत होता है, जिसे सक्रियण फ़ंक्शन के रूप में परिभाषित नाम दिया गया है

(एक्स)=एक्सएस(βएक्स),

जहां स्विश सक्रियण फ़ंक्शन है और सिग्मॉइड फ़ंक्शन है। ध्यान दें कि स्विश कड़ाई से सक्रियण कार्यों का संयोजन नहीं है। यह सिग्मॉइड फ़ंक्शन के अंदर हाइपर-पैरामीटर के अलावा और सिग्मॉइड फ़ंक्शन परिणाम में इनपुट के गुणन के माध्यम से बनता है ।()एसβ

यह Google द्वारा विकसित किया गया प्रतीत नहीं होता है। मूल रूप से गुमनाम रूप से प्रस्तुत किया गया पेपर (ICLR 2018 पेपर के रूप में डबल ब्लाइंड रिव्यू के लिए), एक्टिवेशन फंक्शंस की खोज , 2017 के आसपास प्रजीत रामचंद्रन, बैरेट ज़ोफ़ और क्वोक वी। ले द्वारा लिखा गया था। यह उनका दावा है।

हमारे प्रयोगों से पता चलता है कि सबसे अच्छा खोजा गया सक्रियण फ़ंक्शन, ... स्विश, ... कई चुनौतीपूर्ण डेटासेट में गहरे मॉडल पर ReLU से बेहतर काम करता है।

खगोलीय रूप से दुर्लभ मामले, प्रभाव सटीकता, विश्वसनीयता और कम्प्यूटेशनल दक्षता को छोड़कर, किसी एक परत को सक्रियण फ़ंक्शन में कोई भी परिवर्तन। क्या परिवर्तन महत्वपूर्ण है सामान्यीकृत नहीं किया जा सकता है। यही कारण है कि नए विचारों को परंपरागत रूप से उपयोगिता 1 को प्राप्त करने के लिए उपयोग किए जाने वाले डेटा सेट के खिलाफ परीक्षण किया जाता है ।

सक्रियण फ़ंक्शंस को संयोजित करना नए सक्रियण फ़ंक्शंस बनाने के लिए सामान्य नहीं है। उदाहरण के लिए, एलेक्सनेट उन्हें संयोजित नहीं करता है। । हालांकि, यह एक एकल, प्रभावी नेटवर्क डिजाइन की विभिन्न परतों में विभिन्न सक्रियण कार्यों का उपयोग करने के लिए बहुत आम है।


फुटनोट

[१] क्या ये परंपराएँ पूर्वाग्रह पैदा करती हैं, यह एक और सवाल है। जो लोग स्वीडिश कंप्यूटर वैज्ञानिक इवर हेजलमर जैकबसन या 6 सिग्मा विचारों द्वारा अग्रणी उपयोग के मामले के विश्लेषण के सिद्धांत का पालन करते हैं, वे कहेंगे कि ये परीक्षण इकाई परीक्षण हैं, वास्तविक दुनिया के उपयोग के मामलों के खिलाफ कार्यात्मक परीक्षण नहीं हैं, और उनके पास एक बिंदु है।

[२] किसी अन्य गलत उत्तर से उत्पन्न होने वाली भ्रांतियों को दूर करने के लिए, एलेक्सनेट, इस नाम को डीप कॉन्टेक्शनल न्यूरल नेटवर्क्स (२०१२) के साथ एलेक्सनेट क्रिजव्स्की, इल्या सेस्कुवर, और जेफ्री ई। हिंटन द्वारा यूनिवर्सिटी में डीप कंफ्यूजनियल न्यूरल नेटवर्क्स (२०१२) के साथ दिए गए दृष्टिकोण को दिया गया है । टोरंटो, नए लोगों को बनाने के लिए सक्रियण कार्यों के संयोजन को शामिल नहीं करता है। वे यह लिखते हैं।

अंतिम पूरी तरह से जुड़े परत का आउटपुट 1000-तरफा सॉफ्टमैक्स को खिलाया जाता है जो 1000 वर्ग लेबल से अधिक का वितरण करता है।

...

ReLU गैर-रेखीयता हर आक्षेप और पूरी तरह से जुड़े परत के आउटपुट पर लागू होती है। आंतरिक परतें शुद्ध ReLU हैं और आउटपुट परत सॉफ्टमैक्स है।

एलेक्सनेट एप्रोच की परतों की श्रृंखला में उनके द्वारा उपयोग किए गए कन्वेन्शन कर्नेल और पूलिंग लेयर्स भी हैं, और 2012 में इमेजनेट प्रतियोगिता जीतने के बाद से डिजाइन ने आम उपयोग में लिया है। अन्य तरीकों ने बाद की प्रतियोगिताओं में जीत हासिल की है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.