ReLU बनाम लीक ReLU और पैरामीट्रिक ReLU (यदि कोई हो) के क्या फायदे हैं?


10

मुझे लगता है कि ReLU के बजाय Leaky ReLU का उपयोग करने का लाभ यह है कि इस तरह से हम लुप्तप्राय ढाल नहीं हो सकते। पैरामीट्रिक ReLU में एकमात्र अंतर के साथ एक ही फायदा है कि नकारात्मक इनपुट के लिए आउटपुट का ढलान एक सीखने योग्य पैरामीटर है जबकि Leaky ReLU में यह एक हाइपरपरमीटर है।

हालांकि, मैं यह नहीं बता पा रहा हूं कि ऐसे मामले हैं जहां लीकी रेउलू या पैरामीट्रिक रेअलयू के बजाय रेएलयू का उपयोग करना अधिक सुविधाजनक है।

जवाबों:


7

दो अलग-अलग चीजों को सीखने के दौरान ReLU, हाइपर-पैरामीटराइज्ड 1 लीकी वैरिएंट और डायनामिक पैराड्राइज़ेशन के साथ संयोजन करना :

  • रेकी वेरिएंट के साथ ReLU के बीच तुलना बारीकी से संबंधित है कि क्या ज़रूरत है, विशेष रूप से एमएल मामले में, संतृप्ति से बचने के लिए - संतृप्ति से आपको या तो शून्य ढाल 2 या डिजिटल से उठने वाले अराजक शोर के संकेत का नुकसान होता है गोलाई में
  • प्रशिक्षण-गतिशील सक्रियण ( साहित्य में पैरामीट्रिक कहा जाता है) और प्रशिक्षण-स्थैतिक सक्रियण के बीच तुलना इस बात पर आधारित होनी चाहिए कि सक्रियण की गैर-रैखिक या गैर-चिकनी विशेषताओं का अभिसरण 4 की दर से संबंधित कोई मूल्य है या नहीं ।

ReLU कभी भी पैरामीट्रिक नहीं है इसका कारण यह है कि ऐसा करना बेमानी होगा। नकारात्मक डोमेन में, यह निरंतर शून्य है। गैर-नकारात्मक डोमेन में, इसका व्युत्पन्न स्थिर है। चूंकि सक्रियण इनपुट वेक्टर पहले से ही वेक्टर-मैट्रिक्स उत्पाद (जहां मैट्रिक्स, क्यूब, या हाइपर-क्यूब में क्षीणन पैरामीटर होता है) के साथ लिया जाता है, गैर-नकारात्मक डोमेन के लिए निरंतर व्युत्पन्न भिन्न करने के लिए एक पैरामीटर जोड़ने का कोई उपयोगी उद्देश्य नहीं है। ।

जब सक्रियण में वक्रता होती है, तो यह अब सच नहीं है कि सक्रियण के सभी गुणांक पैरामीटर के रूप में बेमानी हैं। उनके मूल्य प्रशिक्षण प्रक्रिया में काफी बदलाव ला सकते हैं और इस प्रकार अभिसरण की गति और विश्वसनीयता।

काफी गहरे नेटवर्क के लिए, अतिरेक पुन: प्रसारित करता है, और इस बात का प्रमाण है, साहित्य में सिद्धांत और व्यवहार दोनों।

  • बीजीय शब्दों में, ReLU और पैराट्रैमिक रूप से गतिशील क्रियाओं के बीच असमानता शून्य से गहराई (परतों की संख्या में) के रूप में अनंत तक पहुंचती है।
  • वर्णनात्मक शब्दों में, यदि ऐसा करने के लिए पर्याप्त संख्या में परतें दी गई हैं , तो ReLU वक्रता 5 के साथ अनुमानित कार्यों को ठीक कर सकता है।

इसीलिए, ELU किस्म, जो कि उथले नेटवर्क के लिए ऊपर बताए गए संतृप्ति के मुद्दों को टालने के लिए फायदेमंद है, का उपयोग गहरे लोगों के लिए नहीं किया जाता है।

इसलिए किसी को दो चीजें तय करनी चाहिए।

  • क्या पैरामीट्रिक सक्रियण सहायक होता है जो अक्सर सांख्यिकीय आबादी के कई नमूनों के साथ प्रयोग पर आधारित होता है। लेकिन परत की गहराई अधिक होने पर इसके साथ प्रयोग करने की कोई आवश्यकता नहीं है।
  • चाहे लीक वैरिएंट की वैल्यू ज्यादा हो, बैक प्रोग्रेस के दौरान मिलने वाले संख्यात्मक रेंज के साथ बहुत कुछ करना है। यदि प्रशिक्षण के दौरान किसी भी बिंदु पर वापस प्रसार के दौरान ढाल गायब हो जाता है, तो सक्रियण वक्र का एक निरंतर भाग समस्याग्रस्त हो सकता है। इस तरह के एक स्कोस में से कोई एक सुचारू कार्य करता है या दो भारी-शून्य ढलान के साथ रिस्की रिले पर्याप्त समाधान प्रदान कर सकता है।

सारांश में, विकल्प कभी भी सुविधा का विकल्प नहीं है।


फुटनोट

[१] हाइपर-पैरामीटर वे पैरामीटर हैं जो उस परत के माध्यम से सिग्नलिंग को प्रभावित करते हैं जो उस परत के इनपुट के क्षीणन का हिस्सा नहीं हैं। क्षीणन भार पैरामीटर हैं। कोई भी अन्य पैरामीरिजेशन हाइपर-पैरामीटर्स के सेट में है। इसमें अधिगम दर शामिल हो सकती है, पीछे प्रसार में उच्च आवृत्तियों की गिरावट, और अन्य सीखने के नियंत्रणों की एक विस्तृत विविधता जो संपूर्ण नेटवर्क के लिए नहीं, बल्कि संपूर्ण परत के लिए निर्धारित होती है।

[२] यदि ढाल शून्य है, तो मापदंडों का कोई भी बुद्धिमान समायोजन नहीं हो सकता है क्योंकि समायोजन की दिशा अज्ञात है, और इसकी परिमाण शून्य होनी चाहिए। सीखना बंद हो जाता है।

[३] यदि अराजक शोर, जो सीपीयू के रूप में उत्पन्न हो सकता है, अपने निकटतम डिजिटल प्रतिनिधित्व के लिए अत्यंत छोटे मानों को दर्शाता है, सुधार संकेत पर हावी होता है जिसका उद्देश्य परतों में वापस फैलाना है, तो सुधार बकवास हो जाता है और सीखना बंद हो जाता है।

[४] अभिसरण की दर गति का एक उपाय है (या तो माइक्रोसेकंड के सापेक्ष या एल्गोरिथ्म के पुनरावृत्ति सूचकांक के सापेक्ष) जिसमें सीखने का परिणाम (सिस्टम व्यवहार) दृष्टिकोण होता है जिसे पर्याप्त माना जाता है। यह आमतौर पर अभिसरण (सीखने) के लिए कुछ औपचारिक स्वीकृति मानदंडों के लिए कुछ निर्दिष्ट निकटता है।

[५] वक्रता वाले कार्य वे हैं जिन्हें सीधे या सपाट रूप में कल्पना नहीं की जाती है। एक परबोला में वक्रता होती है। एक सीधी रेखा नहीं है। एक अंडे की सतह में वक्रता होती है। एक परिपूर्ण समतल विमान नहीं है। गणितीय रूप से, यदि फ़ंक्शन के हेसियन का कोई भी तत्व गैर-शून्य है, तो फ़ंक्शन में वक्रता है।


पसंद से आपका क्या मतलब है पसंद का विकल्प कभी नहीं है ?
gvgramazio

@gvgramazio, आपने अपने प्रश्न में "ReLU का उपयोग करने के लिए अधिक सुविधाजनक" लिखा था। मैं संकेत कर रहा था कि सुविधा वह आधार नहीं है जिस पर चुनाव किया जाता है। शायद यह भी कठोर के रूप में बंद आता है? मैं होने का इरादा नहीं था। मेरे उत्तर में उस वाक्य के ऊपर दिए गए वाक्यों का उद्देश्य अधिक उपयोगी मानदंड प्रदान करना था, जिस पर आप सक्रियण कार्यों को चुनते समय अपने निर्णय को आधार बना सकते हैं।
फ़ॉच्रिशियन

बहुत कठोर होने की चिंता न करें, मेरे लिए कोई समस्या नहीं है। मुझे लगता है कि भाषा की समस्या अधिक है (मैं देशी अंग्रेजी बोलने वाला नहीं हूं)।
gvgramazio

तथ्य यह है कि, जो मैंने समझा है, आप अच्छी तरह से समझाते हैं कि किस मामले में मुझे दूसरे के संबंध में एक संस्करण पसंद करना चाहिए। मुझे अभी भी समझ में नहीं आया है कि मुझे क्लासिकल पसंद कब करना चाहिए। उदाहरण के लिए टपका हुआ वैरिएंट गायब होने के लिए एक पर्याप्त समाधान प्रदान कर सकता है, लेकिन अगर इसमें कोई कमी नहीं है, तो मैं हमेशा रेक्लू के संबंध में टपका हुआ संस्करण चुन सकता हूं।
gvgramazio

@FauChristian क्या आप कुछ अधिक बोलचाल की शर्तें और अंतर्ज्ञान जोड़ सकते हैं, मैं गणितीय भाषा से परिचित नहीं हूँ :)
DuttaA
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.