मैंने कर्नेल इनिशियलाइज़ेशन के बारे में कुछ कागज़ात पढ़े हैं और कई कागज़ात में उल्लेख है कि वे कर्नेल के L2 नियमितीकरण का उपयोग करते हैं (अक्सर )।
क्या कोई निरंतर शून्य के साथ पूर्वाग्रह को शुरू करने और इसे नियमित नहीं करने से अलग कुछ करता है?
कर्नेल आरंभीकरण कागजात
- मिशकिन और माटस: आप सभी की जरूरत एक अच्छा init है
- जेवियर ग्लोरोट और योशुआ बेंगियो: गहन फीडफॉर्वर्ड न्यूरल नेटवर्क के प्रशिक्षण की कठिनाई को समझना
- वह एट अल: डेलिंग डीप इन रेक्टिफायर्स: सर्पोटिंग ह्यूमन-लेवल परफॉर्मेंस ऑन इमेजनेट क्लासिफिकेशन