तंत्रिका जाल छिपा सक्रियण समारोह का विकल्प


14

मैंने कहीं और पढ़ा है कि किसी NN में छिपे हुए लेयर एक्टिवेशन फंक्शन का चुनाव किसी की ज़रूरत पर आधारित होना चाहिए , यानी यदि आपको रेंज -1 से 1 में मानों की जरूरत है तो टैन का उपयोग करें और रेंज 0 से 1 के लिए सिग्मॉइड का उपयोग करें।

मेरा सवाल यह है कि किसी को क्या पता है कि किसी की ज़रूरत क्या है? क्या यह इनपुट लेयर की सीमा पर आधारित है, उदाहरण के लिए फ़ंक्शन का उपयोग करें जो इनपुट लेयर की पूरी रेंज को मानों में शामिल कर सकता है, या किसी तरह इनपुट लेयर के वितरण (गाऊसी फंक्शन) को दर्शाता है? या है की जरूरत समस्या / डोमेन विशिष्ट और एक के अनुभव / निर्णय इस विकल्प बनाने के लिए आवश्यक है? या यह केवल "उपयोग करें जो सबसे अच्छा क्रॉस-मान्य न्यूनतम प्रशिक्षण त्रुटि देता है?"


3
यह तर्क bs है क्योंकि (tanh + 1) / 2 भी 0-1 में है, यह उल्लेख नहीं करने के लिए कि "सिग्मॉइड" ऐसा अस्पष्ट शब्द है कि यह अक्सर tanh को कवर करता है।

यह संभवतः ध्यान देने योग्य है कि किसी भी डेटा सेट को 0-> 1 के लिए सामान्य किया जा सकता है और सिग्मॉइड सक्रियण का उपयोग करने के लिए बनाया गया है 1 + (1 / exp(-sum))। प्रत्येक डेटा सेट पर दोनों की कोशिश किए बिना समझने की आवश्यकता को बहुत कठिन बनाना । जरूरत आप इसे यहाँ का वर्णन के रूप में वास्तविक संबंध से जुड़ा हुआ है सीखा जा रहा है, यानी एक बाइनरी डेटा सेट तेजी से है या नहीं सब को देखते हुए अलग सक्रियण में सीखना होगा।
एड्रियन सीले

जवाबों:


12

LeCun कुशल Backprop खंड 4.4 में इस पर चर्चा करता है । प्रेरणा शून्य मतलब (धारा 4.3) के लिए इनपुट को सामान्य करने के लिए प्रेरणा के समान है। तनह सक्रियण फ़ंक्शन के औसत आउटपुट सिग्मॉइड की तुलना में शून्य के करीब होने की अधिक संभावना है, जिसका औसत आउटपुट सकारात्मक होना चाहिए।


एक बहुत जानकारीपूर्ण पढ़ा!
babelproofreader

6

प्रश्न के पहले पैराग्राफ में उल्लिखित आवश्यकता आउटपुट से संबंधित है लेयर एक्टिवेशन फंक्शन की बजाय हिडन लेयर एक्टिवेशन फंक्शन से संबंधित है। 0 से 1 तक की सीमा वाले आउटपुट सुविधाजनक होते हैं इसका मतलब है कि वे सीधे संभावनाओं का प्रतिनिधित्व कर सकते हैं। हालाँकि, IIRC, टैन आउटपुट लेयर एक्टिवेशन फ़ंक्शंस के साथ एक नेटवर्क लॉजिस्टिक आउटपुट लेयर एक्टिवेशन फंक्शन वाले नेटवर्क में बदल सकता है, इसलिए यह वास्तव में बहुत ज्यादा मायने नहीं रखता है।

IIRC छिपी हुई इकाइयों में लॉजिस्टिक एक्टिवेशन फंक्शन के बजाय टैन का उपयोग करने का कारण, जो कि बैकप्रोपेगैनेशन के उपयोग से वज़न में किया गया परिवर्तन, छिपे हुए लेयर न्यूरॉन के आउटपुट और सक्रियण फ़ंक्शन के व्युत्पन्न दोनों पर निर्भर करता है, इसलिए लॉजिस्टिक सक्रियण का उपयोग करना फ़ंक्शन आप एक ही समय में शून्य पर जा सकते हैं, जो छिपी हुई परत इकाई के जमे हुए होने के साथ समाप्त हो सकता है।

संक्षेप में, छिपी हुई परत सक्रियण क्रियाओं के लिए टैन का उपयोग करें, आउटपुट पर वांछित बाधाओं को लागू करने के लिए आउटपुट लेयर एक्टिवेशन फ़ंक्शन को चुना (सामान्य विकल्प: रैखिक - कोई बाधा नहीं, लॉजिस्टिक - आउटपुट 0 और 1 के बीच स्थित है और घातीय - आउटपुट सख्ती से सकारात्मक है)।


मुझे "... दोनों शून्य नहीं हैं ..." मिलता है। मुझे लगता है कि उत्पादन शून्य हो सकता है, लेकिन लॉजिस्टिक फ़ंक्शन का व्युत्पन्न शून्य के रूप में होना संभव नहीं है क्योंकि यह तनह नहीं है।
erogol

यह बिल्कुल शून्य नहीं जाता है, लॉजिस्टिक फ़ंक्शन के लिए, यह बस बहुत छोटा हो जाता है। दसवें फ़ंक्शन के लिए, व्युत्पन्न अपने सबसे बड़े स्तर पर होता है जब आउटपुट शून्य होता है और व्युत्पन्न सबसे छोटा होने पर आउटपुट सबसे बड़ा होता है। मूल पेपर 80 के दशक के अंत में लिखा गया था, मैं देखूंगा कि क्या मैं विवरण याद रख सकता हूं।
डिक्रान मार्सुपियल

2
मुझे मूल पेपर नहीं मिल रहा है, लेकिन "न्यूरल नेटवर्क्स - ट्रिक्स ऑफ़ द ट्रेड" पुस्तक में कुछ कागजात बताते हैं कि छिपी हुई परतों में टैन बेहतर है क्योंकि नेटवर्क में बेहतर प्रदर्शन होता है यदि छिपी हुई परत की सक्रियता केंद्रित होती है (अर्थात शून्य मतलब )।
डिक्रान मार्सुपियल

2

तुम उपयोग कर सकते हो 1.7159×tanh(एक्स×(2/3))छिपी हुई परतों पर। इस सिग्मॉइड में वह संपत्ति है जिसके पास अपने दूसरे डेरिवेटिव की अधिकतम मात्रा है-1 तथा +1 मूल्य जबकि इसकी स्पर्शोन्मुख सीमाएँ हैं [-1.5,+1.5]। इस तरह आप निर्णय सीमा के पास के बिंदुओं पर नेटवर्क अधिक सटीक होंगे।

अपने उद्देश्य के लिए सिग्मॉइड चुनने के लिए सामान्य अवधारणा नियम के अनुसार एक का चयन करना है, आपके आउटपुट मान बिंदुओं की श्रेणी में हैं, सिग्मॉइड फ़ंक्शन के दूसरे व्युत्पन्न को अधिकतम बनाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.