यही कारण है कि शायद PReLU, ELU, या अन्य टपका हुआ ReLU जैसी सक्रियताओं का उपयोग करना बेहतर विचार है, जो केवल 0 से नहीं मरते हैं, लेकिन जब सीखने को रखने के लिए x नकारात्मक हो जाता है, तो 0.1 * x की तरह कुछ गिर जाता है। यह मुझे लंबे समय से लग रहा था कि ReLUs सिग्मॉइड की तरह इतिहास हैं, हालांकि किसी कारण से लोग अभी भी इन के साथ पेपर प्रकाशित करते हैं। क्यूं कर? मुझे नहीं पता।
Dmytro Mishkin और अन्य लोगों ने वास्तव में विभिन्न सक्रियण प्रकारों के साथ एक नेटवर्क का परीक्षण किया, आपको विभिन्न सक्रियण कार्यों और अन्य सामानों के प्रदर्शन पर उनके निष्कर्षों पर गौर करना चाहिए। XOR जैसे कुछ कार्य, हालांकि सादे ReLU के साथ बेहतर सीखे जाते हैं। हठधर्मिता के संदर्भ में किसी भी तंत्रिका सामग्री के बारे में मत सोचो, क्योंकि तंत्रिका जाल बहुत काम कर रहे हैं। दुनिया में कोई भी वास्तव में उन्हें नहीं जानता है और उन्हें अच्छी तरह से समझता है कि वह दिव्य सत्य को बताता है। कोई भी नहीं। चीजों को आज़माएं, अपनी खुद की खोज करें। माइंड जो कि ReLU का उपयोग कर रहा है, वह हाल ही में किया गया विकास है और दशकों से क्षेत्र के सभी अलग-अलग PhD लोगों ने ओवर-कॉम्प्लेक्स ऐक्टिवेशन फ़ंक्शंस का उपयोग किया है, जिसे अब हम केवल हंस सकते हैं। बहुत बार "जानने" से आपको बहुत बुरे परिणाम मिल सकते हैं। यह समझना महत्वपूर्ण है कि तंत्रिका नेटवर्क एक सटीक विज्ञान नहीं हैं। गणित में कुछ भी नहीं कहता है कि तंत्रिका नेटवर्क वास्तव में उतना अच्छा काम करेंगे जितना वे करते हैं। यह हेयुरिस्टिक है। और इसलिए यह बहुत निंदनीय है।
FYI करें यहां तक कि पूर्ण-मूल्य सक्रियण से कुछ समस्याओं पर अच्छे परिणाम मिलते हैं, उदाहरण के लिए XOR जैसी समस्याएं। विभिन्न कार्यों के लिए अलग-अलग सक्रियण कार्य बेहतर हैं। मैंने एब्स के साथ Cifar-10 की कोशिश की () और यह खराब प्रदर्शन करने लगा। हालाँकि, मैं यह नहीं कह सकता कि "यह दृश्य मान्यता के लिए एक बदतर सक्रियण कार्य है", क्योंकि मुझे यकीन नहीं है, उदाहरण के लिए, अगर मेरी पूर्व-शुरुआत इसके लिए इष्टतम थी, आदि बहुत तथ्य यह है कि यह अपेक्षाकृत सीख रहा था। मुझे अचंभित कर दिया।
इसके अलावा, वास्तविक जीवन में, "डेरिवेटिव" जिसे आप बैकप्रॉप पास करते हैं, जरूरी नहीं कि वह वास्तविक गणितीय डेरिवेटिव से मेल खाता हो।
मैं यहां तक कहूंगा कि हमें उन्हें "डेरिवेटिव" कहने पर प्रतिबंध लगाना चाहिए और उन्हें कुछ और कॉल करना शुरू करना चाहिए, उदाहरण के लिए, error activation functions
उनके साथ छेड़छाड़ की संभावनाओं के लिए हमारे दिमाग को बंद न करें। आप वास्तव में, उदाहरण के लिए, ReLU सक्रियण का उपयोग कर सकते हैं, लेकिन x <0 के लिए व्युत्पन्न के रूप में 0 के बजाय 0.1, या ऐसा कुछ प्रदान करते हैं। एक तरह से, आपके पास एक सादा ReLU है, लेकिन न्यूरॉन्स "अनुकूलन क्षमता से बाहर नहीं" होने में सक्षम नहीं हैं। मैं इस नेक्रेलु को बुलाता हूं, क्योंकि यह एक ReLU है जो मर नहीं सकता है। और कुछ मामलों में (निश्चित रूप से अधिकांश में, हालांकि नहीं), जो सादे LeakyReLU से बेहतर काम करता है, जो वास्तव में x <0 पर 0.1 व्युत्पन्न है और सामान्य ReLU से बेहतर है। मुझे नहीं लगता कि बहुत से अन्य लोगों ने इस तरह के फ़ंक्शन की जांच की है, हालांकि, यह, या ऐसा ही कुछ वास्तव में एक आम तौर पर शांत सक्रियण फ़ंक्शन हो सकता है जिसे किसी ने सिर्फ इसलिए नहीं माना क्योंकि वे गणित पर बहुत ध्यान केंद्रित कर रहे हैं।
जैसा कि आम तौर पर इस्तेमाल किया जाता है, tanH (x) सक्रियण फ़ंक्शन के लिए 1 - tanH (x) of के बजाय 1 - x² पास करना एक सामान्य बात है ताकि चीजों की तेज़ी से गणना की जा सके।
इसके अलावा, मन है कि ReLU "स्पष्ट रूप से बेहतर" नहीं है, उदाहरण के लिए, TanH। कुछ मामलों में टैनएच बेहतर हो सकता है। बस, ऐसा लगता है, दृश्य मान्यता में नहीं। हालांकि, उदाहरण के लिए, ELU में थोड़ा सा नरमपन है, और यह इस समय दृश्य पहचान के लिए सबसे अच्छा ज्ञात सक्रियण कार्यों में से एक है। मैंने वास्तव में कोशिश नहीं की है, लेकिन मैं शर्त लगाता हूं कि एक ही स्तर पर विभिन्न सक्रियण कार्यों के साथ कई समूह एक लाभ के लिए सेट कर सकते हैं। क्योंकि, विभिन्न सक्रियण कार्यों के साथ अलग-अलग तर्क बेहतर वर्णित हैं। और कभी-कभी आपको शायद कई प्रकार के मूल्यांकन की आवश्यकता होती है।
ध्यान दें कि एक सक्रियण होना महत्वपूर्ण है जो आपके सक्रियण फ़ंक्शन के प्रकार से मेल खाता है। उदाहरण के लिए, लीकी रेयुल्स को अन्य init की आवश्यकता होती है जो सादे ReLUs है।
संपादित करें: वास्तव में, मानक ReLU आधुनिक आर्किटेक्चर के साथ लीक से हटकर होने की संभावना कम है। कम से कम छवि पहचान में। ऐसा लगता है कि यदि आप मापदंडों के एक बड़े भार के साथ बहुत अधिक सटीकता वाले जाल के लिए जा रहे हैं, तो सादे ReLU बनाम टपका विकल्पों के साथ रहना बेहतर हो सकता है। लेकिन, निश्चित रूप से, यह सब अपने आप से परीक्षण करें। हो सकता है, अधिक नियमितीकरण दिए जाने पर कुछ टपका हुआ सामान बेहतर काम करेगा।