दो अलग-अलग चीजों को सीखने के दौरान ReLU, हाइपर-पैरामीटराइज्ड 1 लीकी वैरिएंट और डायनामिक पैराड्राइज़ेशन के साथ संयोजन करना :
- रेकी वेरिएंट के साथ ReLU के बीच तुलना बारीकी से संबंधित है कि क्या ज़रूरत है, विशेष रूप से एमएल मामले में, संतृप्ति से बचने के लिए - संतृप्ति से आपको या तो शून्य ढाल 2 या डिजिटल से उठने वाले अराजक शोर के संकेत का नुकसान होता है गोलाई में ३ ।
- प्रशिक्षण-गतिशील सक्रियण ( साहित्य में पैरामीट्रिक कहा जाता है) और प्रशिक्षण-स्थैतिक सक्रियण के बीच तुलना इस बात पर आधारित होनी चाहिए कि सक्रियण की गैर-रैखिक या गैर-चिकनी विशेषताओं का अभिसरण 4 की दर से संबंधित कोई मूल्य है या नहीं ।
ReLU कभी भी पैरामीट्रिक नहीं है इसका कारण यह है कि ऐसा करना बेमानी होगा। नकारात्मक डोमेन में, यह निरंतर शून्य है। गैर-नकारात्मक डोमेन में, इसका व्युत्पन्न स्थिर है। चूंकि सक्रियण इनपुट वेक्टर पहले से ही वेक्टर-मैट्रिक्स उत्पाद (जहां मैट्रिक्स, क्यूब, या हाइपर-क्यूब में क्षीणन पैरामीटर होता है) के साथ लिया जाता है, गैर-नकारात्मक डोमेन के लिए निरंतर व्युत्पन्न भिन्न करने के लिए एक पैरामीटर जोड़ने का कोई उपयोगी उद्देश्य नहीं है। ।
जब सक्रियण में वक्रता होती है, तो यह अब सच नहीं है कि सक्रियण के सभी गुणांक पैरामीटर के रूप में बेमानी हैं। उनके मूल्य प्रशिक्षण प्रक्रिया में काफी बदलाव ला सकते हैं और इस प्रकार अभिसरण की गति और विश्वसनीयता।
काफी गहरे नेटवर्क के लिए, अतिरेक पुन: प्रसारित करता है, और इस बात का प्रमाण है, साहित्य में सिद्धांत और व्यवहार दोनों।
- बीजीय शब्दों में, ReLU और पैराट्रैमिक रूप से गतिशील क्रियाओं के बीच असमानता शून्य से गहराई (परतों की संख्या में) के रूप में अनंत तक पहुंचती है।
- वर्णनात्मक शब्दों में, यदि ऐसा करने के लिए पर्याप्त संख्या में परतें दी गई हैं , तो ReLU वक्रता 5 के साथ अनुमानित कार्यों को ठीक कर सकता है।
इसीलिए, ELU किस्म, जो कि उथले नेटवर्क के लिए ऊपर बताए गए संतृप्ति के मुद्दों को टालने के लिए फायदेमंद है, का उपयोग गहरे लोगों के लिए नहीं किया जाता है।
इसलिए किसी को दो चीजें तय करनी चाहिए।
- क्या पैरामीट्रिक सक्रियण सहायक होता है जो अक्सर सांख्यिकीय आबादी के कई नमूनों के साथ प्रयोग पर आधारित होता है। लेकिन परत की गहराई अधिक होने पर इसके साथ प्रयोग करने की कोई आवश्यकता नहीं है।
- चाहे लीक वैरिएंट की वैल्यू ज्यादा हो, बैक प्रोग्रेस के दौरान मिलने वाले संख्यात्मक रेंज के साथ बहुत कुछ करना है। यदि प्रशिक्षण के दौरान किसी भी बिंदु पर वापस प्रसार के दौरान ढाल गायब हो जाता है, तो सक्रियण वक्र का एक निरंतर भाग समस्याग्रस्त हो सकता है। इस तरह के एक स्कोस में से कोई एक सुचारू कार्य करता है या दो भारी-शून्य ढलान के साथ रिस्की रिले पर्याप्त समाधान प्रदान कर सकता है।
सारांश में, विकल्प कभी भी सुविधा का विकल्प नहीं है।
फुटनोट
[१] हाइपर-पैरामीटर वे पैरामीटर हैं जो उस परत के माध्यम से सिग्नलिंग को प्रभावित करते हैं जो उस परत के इनपुट के क्षीणन का हिस्सा नहीं हैं। क्षीणन भार पैरामीटर हैं। कोई भी अन्य पैरामीरिजेशन हाइपर-पैरामीटर्स के सेट में है। इसमें अधिगम दर शामिल हो सकती है, पीछे प्रसार में उच्च आवृत्तियों की गिरावट, और अन्य सीखने के नियंत्रणों की एक विस्तृत विविधता जो संपूर्ण नेटवर्क के लिए नहीं, बल्कि संपूर्ण परत के लिए निर्धारित होती है।
[२] यदि ढाल शून्य है, तो मापदंडों का कोई भी बुद्धिमान समायोजन नहीं हो सकता है क्योंकि समायोजन की दिशा अज्ञात है, और इसकी परिमाण शून्य होनी चाहिए। सीखना बंद हो जाता है।
[३] यदि अराजक शोर, जो सीपीयू के रूप में उत्पन्न हो सकता है, अपने निकटतम डिजिटल प्रतिनिधित्व के लिए अत्यंत छोटे मानों को दर्शाता है, सुधार संकेत पर हावी होता है जिसका उद्देश्य परतों में वापस फैलाना है, तो सुधार बकवास हो जाता है और सीखना बंद हो जाता है।
[४] अभिसरण की दर गति का एक उपाय है (या तो माइक्रोसेकंड के सापेक्ष या एल्गोरिथ्म के पुनरावृत्ति सूचकांक के सापेक्ष) जिसमें सीखने का परिणाम (सिस्टम व्यवहार) दृष्टिकोण होता है जिसे पर्याप्त माना जाता है। यह आमतौर पर अभिसरण (सीखने) के लिए कुछ औपचारिक स्वीकृति मानदंडों के लिए कुछ निर्दिष्ट निकटता है।
[५] वक्रता वाले कार्य वे हैं जिन्हें सीधे या सपाट रूप में कल्पना नहीं की जाती है। एक परबोला में वक्रता होती है। एक सीधी रेखा नहीं है। एक अंडे की सतह में वक्रता होती है। एक परिपूर्ण समतल विमान नहीं है। गणितीय रूप से, यदि फ़ंक्शन के हेसियन का कोई भी तत्व गैर-शून्य है, तो फ़ंक्शन में वक्रता है।