सक्रियण कार्यों को एकरस क्यों होना पड़ता है?


15

मैं वर्तमान में तंत्रिका नेटवर्क पर एक परीक्षा की तैयारी कर रहा हूं। पूर्व परीक्षाओं के कई प्रोटोकॉल में मैंने पढ़ा है कि न्यूरॉन्स (बहुपरत पेसेप्ट्रॉन में) के सक्रियण कार्य को मोनोनिक होना चाहिए।

मैं समझता हूं कि सक्रियण कार्य अलग-अलग होने चाहिए, एक व्युत्पन्न होना चाहिए जो कि अधिकांश बिंदुओं पर 0 न हो, और गैर-रैखिक हो। मुझे समझ में नहीं आता है कि एकरस होना महत्वपूर्ण / सहायक क्यों है।

मैं निम्नलिखित सक्रियण कार्यों को जानता हूं और वे एकरस हैं:

  • Relu
  • अवग्रह
  • tanh
  • Softmax: मैं नहीं यकीन है कि अगर दिष्टता की परिभाषा कार्यों के लिए लागू है :आरnआर के साथ n,>1
  • Softplus
  • (पहचान)

हालांकि, मैं अभी भी क्यों उदाहरण के लिए कोई कारण नहीं देख सकते हैं φ(एक्स)=एक्स2

सक्रियण कार्यों को एकरस क्यों होना पड़ता है?

(संबंधित पक्ष प्रश्न: क्या कोई कारण है कि लॉगरिथम / घातांक फ़ंक्शन को सक्रियण फ़ंक्शन के रूप में उपयोग नहीं किया जाता है)



1
@MartinThoma क्या आपको यकीन है कि सॉफ्टमैक्स मोनोटोनिक है?
मीडिया

1
धन्यवाद @ मीडिया। आपके प्रश्न का उत्तर देने के लिए: मुझे यकीन नहीं है कि "मोनोटोनिक" का अर्थ कार्यों के लिए भी है : R nR m with m > 1 । के लिए मीटर = 1 softmax निरंतर है और इस तरह monotonic है। लेकिन R > n में तत्वों के लिए < n > 1 के साथ परिभाषित किए बिना मुझे नहीं लगता कि मोनोटोनिक का कोई मतलब नहीं है। :आरnआर>1=1<आरnn>1
मार्टिन थोमा

1
@MartinThoma धन्यवाद, वास्तव में यह मेरा भी सवाल था। मुझे पता नहीं था, और अभी भी पता नहीं है, अगर वहाँ कई आउटपुट के साथ कार्यों में मोनोटोनिक के लिए एक विस्तार है। गणित सामान, तुम्हें पता है!
मीडिया

जवाबों:


13

नीरसता मानदंड तंत्रिका नेटवर्क को अधिक सटीक क्लासिफायर में आसानी से परिवर्तित करने में मदद करता है। अधिक जानकारी और कारणों के लिए यह स्टैकएक्सचेंज उत्तर और विकिपीडिया लेख देखें।

हालांकि, एक सक्रियण फ़ंक्शन के लिए एकरसता मानदंड अनिवार्य नहीं है - गैर-मोनोटोनिक सक्रियण कार्यों के साथ तंत्रिका जाल को प्रशिक्षित करना भी संभव है। यह सिर्फ तंत्रिका नेटवर्क को अनुकूलित करने के लिए कठिन हो जाता है। देखिए योशुआ बेंगियो का जवाब


-1

मैं एक अधिक गणितीय कारण प्रदान करूंगा कि एक मोनोटोन फ़ंक्शन होने में मदद क्यों करता है!

Http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentibility-of-monotone-fun का उपयोग करते हुए, हमारे सक्रियण कार्य को एकरस मानकर, हम कह सकते हैं कि वास्तविक रेखा पर, हमारा कार्य होगा विभेदक। इसलिए, सक्रियण फ़ंक्शन का ग्रेडिएंट एक अनियमित फ़ंक्शन नहीं होगा। हम जिस मिनीमा को ढूंढ रहे हैं, उसे खोजना आसान होगा। (कम्प्यूटेशनल रूप से सस्ती)

एक्सपोनेंशियल और लॉगरिदमिक फ़ंक्शंस सुंदर कार्य हैं, लेकिन बाध्य नहीं हैं (इसलिए, लेब्सगेम प्रमेय का रूपांतरण एक्सप और लॉग के रूप में सत्य नहीं है, अलग-अलग कार्य हैं जो वास्तविक रेखा पर बंधे नहीं हैं)। इसलिए, जब हम अपने उदाहरणों को अंतिम चरण में वर्गीकृत करना चाहते हैं तो वे विफल हो जाते हैं। सिग्मॉइड और टैन वास्तव में अच्छी तरह से काम करते हैं क्योंकि उनके पास ग्रेडिएंट हैं जो गणना करना आसान है और उनकी सीमा क्रमशः (0,1) और (-1,1) है।


2
असीम रूप से कई अलग-अलग हैं, लेकिन मोनोटोन फ़ंक्शन नहीं हैं। तो एक मोनोटोन फ़ंक्शन होने में मदद क्यों करता है?
मार्टिन थोमा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.