तन सक्रियण कार्य बनाम सिग्माइड सक्रियण कार्य


82

तन सक्रियण क्रिया है:

tanh(x)=2σ(2x)1

कहाँ , अवग्रह समारोह, के रूप में परिभाषित किया गया है: σ ( x ) = एक्सσ(x)

σ(x)=ex1+ex

प्रशन:

  • क्या यह वास्तव में उन दो सक्रियण कार्यों (तन बनाम सिग्मा) का उपयोग करने के बीच की बात है?
  • किन मामलों में बेहतर है?

12
tanh(x)=2σ(2x)1

डीप न्यूरल नेटवर्क चालू हो गया है। वर्तमान प्राथमिकता RELU फ़ंक्शन है।
पॉल नॉर्ड

7
@PaNNord टैन और सिग्मोइड दोनों का उपयोग अभी भी RELU जैसी अन्य गतिविधियों के साथ संयोजन में किया जाता है, यह निर्भर करता है कि आप क्या करने की कोशिश कर रहे हैं।
ताहोरल

जवाबों:


80

हाँ यह तकनीकी कारणों से मायने रखता है। मूल रूप से अनुकूलन के लिए। यह LeCun एट अल द्वारा कुशल बैकप्रॉप पढ़ने लायक है ।

उस चुनाव के दो कारण हैं (यह मानते हुए कि आपने अपना डेटा सामान्य कर लिया है, और यह बहुत महत्वपूर्ण है):

  1. मजबूत ग्रेडिएंट होने के बाद: चूंकि डेटा 0 के आसपास केंद्रित है, इसलिए डेरिवेटिव अधिक हैं। इसे देखने के लिए, तन समारोह के व्युत्पन्न की गणना करें और ध्यान दें कि इसकी सीमा (आउटपुट मान) [0,1] है।

तन समारोह की सीमा [-1,1] है और सिग्मॉइड फ़ंक्शन की संख्या [0,1] है

  1. ग्रेडिएंट्स में पूर्वाग्रह से बचना। यह कागज में बहुत अच्छी तरह से समझाया गया है, और इन मुद्दों को समझने के लिए इसे पढ़ने के लायक है।

आपके द्वारा सुझाए गए कागज में मुझे छोटा संदेह है। पृष्ठ 14 में, "जब एमएलपी ने वजन साझा किया है (जैसे: संवादी जाल), तो सीखने की दर को इस तरह से चुना जाना चाहिए कि, यह वजन साझा करने वाले कनेक्शनों के वर्गमूल के आनुपातिक है।" क्या आप कृपया बता सकते हैं कि क्यों?
सत्या

इस सवाल का पहले ही जवाब दिया जा चुका है यहाँ आँकड़े ।stackexchange.com
questions/

1
यह एक बहुत ही सामान्य प्रश्न है। लंबी कहानी छोटी: लागत फ़ंक्शन यह निर्धारित करता है कि तंत्रिका नेटवर्क को क्या करना चाहिए: वर्गीकरण या प्रतिगमन और कैसे। यदि आप क्रिस्टोफर बिशप द्वारा "न्यूरल नेटवर्क्स फॉर पैटर्न रिकॉग्निशन" की एक प्रति प्राप्त कर सकते हैं जो बहुत अच्छी होगी। मिशेल द्वारा "मशीन लर्निंग" भी आपको अधिक बुनियादी स्तर पर एक अच्छी व्याख्या देता है।
jpmuc

1
मुझे खेद है, सत्या, मैं आमतौर पर सप्ताह के दौरान काफी व्यस्त हूं। आप अपने डेटा को बिल्कुल कैसे सामान्य करते हैं? en.wikipedia.org/wiki/Whitening_transformation मुझे वास्तव में यकीन नहीं है कि आपकी समस्या क्या हो सकती है। सबसे आसान तरीका है मतलब को निकालना और फिर कोविरियन मैट्रिक्स के साथ बराबरी करना। Evtl. आपको उच्च आवृत्तियों के लिए कुछ घटक जोड़ने की आवश्यकता है (ऊपर संदर्भ में
ZCA

1
बहुत बहुत धन्यवाद जम्पा। आप वास्तव में मेरी बहुत मदद कर रहे हैं। सुझाए गए पठन बहुत अच्छे हैं। मैं वास्तव में जलवायु डेटा खनन पर एक परियोजना कर रहा हूं। मेरे इनपुट फीचर्स का 50% तापमान (रेंज 200K-310K) और मेरे इनपुट फीचर्स का 50% प्रेशर वैल्यू (रेंज 50000pa से 100000pa) हैं। मैं सफेदी कर रहा हूं। Pca से पहले, क्या इसे सामान्य करने की कोई आवश्यकता है ... यदि हाँ, तो मुझे इसे कैसे सामान्य करना चाहिए? क्या मुझे मतलब से घटाकर या मतलब से घटाकर सामान्य करना चाहिए? अगर मैं अलग-अलग तरीकों से सामान्य हो रहा हूं, तो मुझे अलग-अलग परिणाम मिल रहे हैं ...
satya

32

बहुत बहुत धन्यवाद @jpmuc! आपके उत्तर से प्रेरित होकर, मैंने गणना की और तन समारोह और मानक सिग्मोइड फ़ंक्शन के व्युत्पन्न की साजिश रची। मैं आप सभी के साथ साझा करना चाहता हूं। यह है जो मुझे मिला। यह तन कार्य की व्युत्पत्ति है। [-1,1] के बीच इनपुट के लिए, हमारे पास व्युत्पन्न है [0.42, 1]। यहाँ छवि विवरण दर्ज करें

यह मानक सिग्मोइड फ़ंक्शन f (x) = 1 / (1 + exp (-x)) का व्युत्पन्न है। [0,1] के बीच इनपुट के लिए, हमारे पास [0.20, 0.25] के बीच व्युत्पन्न है। यहाँ छवि विवरण दर्ज करें

जाहिरा तौर पर तन समारोह मजबूत ग्रेडिएंट प्रदान करता है।


6
इसे देखने का एक और तरीका यह है कि σ (2x)) (x) के समान है, लेकिन एक क्षैतिज खिंचाव के साथ, स्केल फैक्टर 1/2 (यानी यह एक ही ग्राफ है लेकिन सब कुछ y अक्ष की ओर स्क्वेस्ड है)। जब आप इसे स्क्वैश करते हैं, तो ढलान
स्थिर

2
मुझे नहीं लगता कि इससे कोई फर्क पड़ेगा। स्केल और स्क्वैशिंग प्रत्येक नोड के लिए यादृच्छिक होगा, और (इनपुट और आउटपुट पर ऑफ़सेट और वेट के साथ) दोनों एक ही परिणाम में परिवर्तित होकर, सार्वभौमिक सन्निकटन होंगे।
एंडोलिथ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.