सक्रियण फ़ंक्शन कैसे चुनें?


13

मैं आउटपुट लेयर के लिए एक्टिवेशन फंक्शन को चुनता हूं जो मुझे जरूरत के आउटपुट और ऐक्टिवेशन फंक्शन के गुणों पर निर्भर करता है। उदाहरण के लिए, जब मैं संभावनाओं के साथ काम कर रहा होता हूं, तो मैं सिग्मॉइड फ़ंक्शन का चयन करता हूं, जब मैं सकारात्मक मूल्यों के साथ काम कर रहा होता हूं, तो एक सामान्य और जब मैं सामान्य मूल्यों के साथ काम कर रहा हूं तो एक रैखिक फ़ंक्शन।

छिपी हुई परतों में, मैं रिग्लू के बजाय मृत न्यूरॉन्स और सिग्मॉइड के बजाय तन से बचने के लिए एक टपका हुआ रेएलयू का उपयोग करता हूं। बेशक, मैं छिपी हुई इकाइयों में एक रैखिक फ़ंक्शन का उपयोग नहीं करता हूं।

हालांकि, छिपी हुई परत में उनके लिए विकल्प ज्यादातर परीक्षण और त्रुटि के कारण है।

क्या कुछ स्थितियों में कार्य सक्रिय होने की संभावना है, जिसके अंगूठे का कोई नियम है? शब्द स्थितियों को सामान्य रूप से लें : यह परत की गहराई, NN की गहराई तक, उस परत के लिए न्यूरॉन्स की संख्या तक, उस ऑप्टिमाइज़र के लिए, जिसे हमने चुना है, इनपुट इनपुट की संख्या के लिए संदर्भित कर सकता है वह परत, इस एनएन के आवेदन के लिए, आदि।

में उसकी / उसके जवाब , cantordust अन्य सक्रियण कार्यों को संदर्भित करता है कि मैं, का उल्लेख नहीं था ELU और सेलु की तरह। यह इन्फोस स्वागत से अधिक है। हालाँकि, अधिक सक्रियण कार्य मुझे पता चलता है कि मैं छिपी परतों में उपयोग करने के लिए फ़ंक्शन के विकल्प में अधिक उलझन में हूं। और मुझे नहीं लगता है कि एक सिक्का फ़्लिप करना एक सक्रियण फ़ंक्शन को चुनने का एक अच्छा तरीका है।

जवाबों:


10

मुझे ऐसा लगता है कि आप पहले से ही ReLUs और सिग्मोइड्स (जैसे कि सादे ReLU के मामले में मृत न्यूरॉन्स) की कमियों को समझते हैं। मैं सुझाव दूंगा कि ELU (घातीय रैखिक इकाइयाँ) और SELU (ELU का आत्म-सामान्यीकरण संस्करण) देख रहा हूँ। कुछ हल्की मान्यताओं के तहत, उत्तरार्द्ध में स्व-सामान्यीकरण की अच्छी संपत्ति होती है, जो लुप्त हो रही और विस्फोट की समस्या को कम करती है। इसके अलावा, वे सामान्यीकरण का प्रचार करते हैं - यानी, वे गारंटी देते हैं कि अगली परत के इनपुट में शून्य माध्य और इकाई विचरण होगा।

संपादित करें:


एक सक्रियण फ़ंक्शन की सिफारिश करना अविश्वसनीय रूप से कठिन होगा जो सभी उपयोग के मामलों के लिए काम करता है (हालांकि मेरा मानना ​​है कि SELU को डिज़ाइन किया गया था ताकि यह किसी भी इनपुट के साथ सही काम करे)। कई विचार हैं - व्युत्पन्न की गणना करना कितना मुश्किल है (यदि यह बिल्कुल अलग है!), आपके चुने हुए वायुसेना के साथ एक नेटवर्क कितनी जल्दी परिवर्तित होता है, यह कितना सुचारू है, चाहे यह सार्वभौमिक सन्निकटन प्रमेय की शर्तों को संतुष्ट करता है या नहीं यह सामान्यीकरण को संरक्षित करता है, और इसी तरह। आप उनमें से कुछ या किसी के बारे में परवाह नहीं कर सकते हैं या नहीं कर सकते हैं।

लब्बोलुआब यह है कि छिपी हुई परतों के लिए सक्रियण फ़ंक्शन चुनने के लिए कोई सार्वभौमिक नियम नहीं है। व्यक्तिगत रूप से, मुझे सिग्मोइड (विशेष रूप से tanh) का उपयोग करना पसंद है क्योंकि वे अच्छी तरह से बंधे हुए हैं और गणना करने के लिए बहुत तेज़ हैं, लेकिन सबसे महत्वपूर्ण बात यह है कि वे मेरे उपयोग के मामलों के लिए काम करते हैं । यदि आपका नेटवर्क सीखने में विफल रहता है, तो अन्य लोग इनपुट और छिपी हुई परतों के लिए लीक रेएलयू की सलाह देते हैं। तुम भी मिश्रण और मैच सक्रियण कार्यों फैंसी अनुप्रयोगों के लिए तंत्रिका जाल विकसित करने के लिए कर सकते हैं ।

दिन के अंत में, आप शायद उतनी ही राय प्राप्त करने जा रहे हैं, जितना कि सक्रियता समारोह के सही विकल्प के बारे में लोग हैं, इसलिए संक्षिप्त उत्तर संभवतः होना चाहिए: दिन के वायुसेना के साथ शुरू करें (leaky ReLU / SELU?) और घटती लोकप्रियता के क्रम में अन्य एएफ के माध्यम से अपना रास्ता काम करें यदि आपका नेटवर्क कुछ भी सीखने के लिए संघर्ष करता है।


1
ठीक है, मैं सामान्यीकरण के प्रचार के बारे में भूल गया। मुझे याद दिलाने के लिये धन्यवाद। हालांकि, सवाल अभी भी अनुत्तरित है। छिपी हुई परतों में कौन से सक्रियण कार्य करने चाहिए, यह चुनने के लिए एक नियम या कुछ है। सादगी के लिए मैं केवल पूरी तरह से जुड़े परतों के बारे में बात कर रहा हूं। मैं संकल्प, पूलिंग, आदि के साथ विषय को जटिल नहीं करना चाहता
gvgramazio

@gvgramazio मैंने उत्तर संपादित किया, उम्मीद है कि यह अब थोड़ा अधिक उपयोगी है।
केंटोर्स्ट जूल 9'18

संपादन के साथ मुझे लगता है कि आपने मेरे सवाल का जवाब दिया और साथ ही इच्छुक लिंक (विशेष रूप से मिक्स एंड मैच के बारे में ) भी दिया। दुर्भाग्य से वह उत्तर नहीं है जो मैं सुनना चाहता था। मैं अपने प्रश्न को थोड़े दिन और खुला रखूंगा। अगर कोई भी बेहतर जवाब नहीं देता है तो मैं आपको स्वीकार कर लूंगा।
gvgramazio

-1

मुझे नहीं पता कि आप किस तरह के तंत्रिका नेटवर्क पर काम कर रहे हैं। लेकिन किसी को पुनरावर्ती तंत्रिका नेटवर्क के साथ काम करते समय तन सक्रियण कार्यों पर भी विचार करना चाहिए। उदाहरण के लिए RELU फ़ंक्शन के अंतर पर टेंह फ़ंक्शन के बाउंड हो जाने के बाद से ग्रेडिएंट ग्रेडिएंट्स के विस्फोट से बचने के लिए क्यों है।


सवाल में मैंने कहा कि मैं तन और सिग्मॉइड का उपयोग करता हूं, न कि केवल ReLU। इसके अलावा, इसे सरल बनाए रखने के लिए, मैं सामान्य रूप से शास्त्रीय रूप से छिपी हुई पूरी तरह से जुड़ी परतों की बात कर रहा हूं। यदि आपको लगता है कि हम एक आवर्तक तंत्रिका नेटवर्क के साथ काम कर रहे हैं, तो सक्रियण समारोह की पसंद के लिए महत्वपूर्ण है कृपया उस का कारण बताएं। विस्फोट / लुप्त घटना गैर आवर्ती तंत्रिका नेटवर्क में भी हो सकती है।
gvgramazio
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.