activation-function पर टैग किए गए जवाब

2
ReLU को सक्रियण फ़ंक्शन के रूप में क्यों उपयोग किया जाता है?
सक्रियण कार्यों का उपयोग w * x + bतंत्रिका नेटवर्क में प्रकार के रैखिक उत्पादन में गैर-रैखिकता को पेश करने के लिए किया जाता है । जिसे मैं सिग्माइड जैसे सक्रियण कार्यों के लिए सहज रूप से समझने में सक्षम हूं। मैं ReLU के फायदों को समझता हूं, जो बैकप्रोपैजेशन …

2
GELU सक्रियण क्या है?
मैं BERT पेपर से गुज़र रहा था जो GELU (गौसियन एरर लाइनर यूनिट) का उपयोग करता है जो GELU ( रूप में समीकरण बताता है जो बदले मेंGELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) क्या आप समीकरण को सरल बना सकते हैं और बता …

1
क्यों ReLU अन्य सक्रियण कार्यों से बेहतर है
यहां जवाब गायब करने और विस्फोट करने वाले ग्रेडिएंट को संदर्भित करता है जो कि इन sigmoid-एक्टिवेशन फ़ंक्शन के समान है लेकिन, मुझे लगता है, Reluइसका नुकसान है और यह इसका अपेक्षित मूल्य है। के उत्पादन के लिए कोई सीमा नहीं है Reluऔर इसलिए इसका अपेक्षित मूल्य शून्य नहीं है। …

1
सामान्य रूप से तंत्रिका नेटवर्क में सक्रियण कार्यों का अंतर
मैंने तंत्रिका नेटवर्क के लिए सक्रियण फ़ंक्शन प्रकारों का अध्ययन किया है। कार्य स्वयं काफी सरल हैं, लेकिन आवेदन का अंतर पूरी तरह से स्पष्ट नहीं है। यह उचित है कि एक तार्किक और रैखिक प्रकार के कार्यों के बीच अंतर करता है, जो वांछित बाइनरी / निरंतर आउटपुट पर …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.