तन सक्रियण कार्य बनाम सिग्माइड सक्रियण कार्य

तन सक्रियण क्रिया है:

t a n h (x) = 2 \cdot σ (2 x) - 1

$tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1$

कहाँ , अवग्रह समारोह, के रूप में परिभाषित किया गया है: $\sigma(x)$
।

σ (x) = \frac{e^{x}}{1 + e^{x}}

$\sigma(x) = \frac{e^x}{1 + e^x}$

प्रशन:

क्या यह वास्तव में उन दो सक्रियण कार्यों (तन बनाम सिग्मा) का उपयोग करने के बीच की बात है?
किन मामलों में बेहतर है?

— सत्य
स्रोत

tanh (x) = 2 σ (2 x) - 1

$\textrm{tanh}(x) = 2\sigma(2x) - 1$

डीप न्यूरल नेटवर्क चालू हो गया है। वर्तमान प्राथमिकता RELU फ़ंक्शन है।

— पॉल नॉर्ड

@PaNNord टैन और सिग्मोइड दोनों का उपयोग अभी भी RELU जैसी अन्य गतिविधियों के साथ संयोजन में किया जाता है, यह निर्भर करता है कि आप क्या करने की कोशिश कर रहे हैं।

— ताहोरल

जवाबों:

हाँ यह तकनीकी कारणों से मायने रखता है। मूल रूप से अनुकूलन के लिए। यह LeCun एट अल द्वारा कुशल बैकप्रॉप पढ़ने लायक है ।

उस चुनाव के दो कारण हैं (यह मानते हुए कि आपने अपना डेटा सामान्य कर लिया है, और यह बहुत महत्वपूर्ण है):

मजबूत ग्रेडिएंट होने के बाद: चूंकि डेटा 0 के आसपास केंद्रित है, इसलिए डेरिवेटिव अधिक हैं। इसे देखने के लिए, तन समारोह के व्युत्पन्न की गणना करें और ध्यान दें कि इसकी सीमा (आउटपुट मान) [0,1] है।

तन समारोह की सीमा [-1,1] है और सिग्मॉइड फ़ंक्शन की संख्या [0,1] है

ग्रेडिएंट्स में पूर्वाग्रह से बचना। यह कागज में बहुत अच्छी तरह से समझाया गया है, और इन मुद्दों को समझने के लिए इसे पढ़ने के लायक है।

— jpmuc
स्रोत

आपके द्वारा सुझाए गए कागज में मुझे छोटा संदेह है। पृष्ठ 14 में, "जब एमएलपी ने वजन साझा किया है (जैसे: संवादी जाल), तो सीखने की दर को इस तरह से चुना जाना चाहिए कि, यह वजन साझा करने वाले कनेक्शनों के वर्गमूल के आनुपातिक है।" क्या आप कृपया बता सकते हैं कि क्यों?

— सत्या

इस सवाल का पहले ही जवाब दिया जा चुका है यहाँ आँकड़े ।stackexchange.com

— questions/

यह एक बहुत ही सामान्य प्रश्न है। लंबी कहानी छोटी: लागत फ़ंक्शन यह निर्धारित करता है कि तंत्रिका नेटवर्क को क्या करना चाहिए: वर्गीकरण या प्रतिगमन और कैसे। यदि आप क्रिस्टोफर बिशप द्वारा "न्यूरल नेटवर्क्स फॉर पैटर्न रिकॉग्निशन" की एक प्रति प्राप्त कर सकते हैं जो बहुत अच्छी होगी। मिशेल द्वारा "मशीन लर्निंग" भी आपको अधिक बुनियादी स्तर पर एक अच्छी व्याख्या देता है।

— jpmuc

मुझे खेद है, सत्या, मैं आमतौर पर सप्ताह के दौरान काफी व्यस्त हूं। आप अपने डेटा को बिल्कुल कैसे सामान्य करते हैं? en.wikipedia.org/wiki/Whitening_transformation मुझे वास्तव में यकीन नहीं है कि आपकी समस्या क्या हो सकती है। सबसे आसान तरीका है मतलब को निकालना और फिर कोविरियन मैट्रिक्स के साथ बराबरी करना। Evtl. आपको उच्च आवृत्तियों के लिए कुछ घटक जोड़ने की आवश्यकता है (ऊपर संदर्भ में

— ZCA

बहुत बहुत धन्यवाद जम्पा। आप वास्तव में मेरी बहुत मदद कर रहे हैं। सुझाए गए पठन बहुत अच्छे हैं। मैं वास्तव में जलवायु डेटा खनन पर एक परियोजना कर रहा हूं। मेरे इनपुट फीचर्स का 50% तापमान (रेंज 200K-310K) और मेरे इनपुट फीचर्स का 50% प्रेशर वैल्यू (रेंज 50000pa से 100000pa) हैं। मैं सफेदी कर रहा हूं। Pca से पहले, क्या इसे सामान्य करने की कोई आवश्यकता है ... यदि हाँ, तो मुझे इसे कैसे सामान्य करना चाहिए? क्या मुझे मतलब से घटाकर या मतलब से घटाकर सामान्य करना चाहिए? अगर मैं अलग-अलग तरीकों से सामान्य हो रहा हूं, तो मुझे अलग-अलग परिणाम मिल रहे हैं ...

— satya

बहुत बहुत धन्यवाद @jpmuc! आपके उत्तर से प्रेरित होकर, मैंने गणना की और तन समारोह और मानक सिग्मोइड फ़ंक्शन के व्युत्पन्न की साजिश रची। मैं आप सभी के साथ साझा करना चाहता हूं। यह है जो मुझे मिला। यह तन कार्य की व्युत्पत्ति है। [-1,1] के बीच इनपुट के लिए, हमारे पास व्युत्पन्न है [0.42, 1]।

यह मानक सिग्मोइड फ़ंक्शन f (x) = 1 / (1 + exp (-x)) का व्युत्पन्न है। [0,1] के बीच इनपुट के लिए, हमारे पास [0.20, 0.25] के बीच व्युत्पन्न है।

जाहिरा तौर पर तन समारोह मजबूत ग्रेडिएंट प्रदान करता है।

— मीना हे
स्रोत

इसे देखने का एक और तरीका यह है कि σ (2x)) (x) के समान है, लेकिन एक क्षैतिज खिंचाव के साथ, स्केल फैक्टर 1/2 (यानी यह एक ही ग्राफ है लेकिन सब कुछ y अक्ष की ओर स्क्वेस्ड है)। जब आप इसे स्क्वैश करते हैं, तो ढलान

— स्थिर

मुझे नहीं लगता कि इससे कोई फर्क पड़ेगा। स्केल और स्क्वैशिंग प्रत्येक नोड के लिए यादृच्छिक होगा, और (इनपुट और आउटपुट पर ऑफ़सेट और वेट के साथ) दोनों एक ही परिणाम में परिवर्तित होकर, सार्वभौमिक सन्निकटन होंगे।

— एंडोलिथ