पूर्वाग्रह को कैसे शुरू और नियमित किया जाना चाहिए?

मैंने कर्नेल इनिशियलाइज़ेशन के बारे में कुछ कागज़ात पढ़े हैं और कई कागज़ात में उल्लेख है कि वे कर्नेल के L2 नियमितीकरण का उपयोग करते हैं (अक्सर )। $\lambda = 0.0001$

क्या कोई निरंतर शून्य के साथ पूर्वाग्रह को शुरू करने और इसे नियमित नहीं करने से अलग कुछ करता है?

कर्नेल आरंभीकरण कागजात

मिशकिन और माटस: आप सभी की जरूरत एक अच्छा init है
जेवियर ग्लोरोट और योशुआ बेंगियो: गहन फीडफॉर्वर्ड न्यूरल नेटवर्क के प्रशिक्षण की कठिनाई को समझना
वह एट अल: डेलिंग डीप इन रेक्टिफायर्स: सर्पोटिंग ह्यूमन-लेवल परफॉर्मेंस ऑन इमेजनेट क्लासिफिकेशन

neural-network

— मार्टिन थोमा
स्रोत

स्टैनफोर्ड CS231N नोट्स ( http://cs231n.github.io/neural-networks-2/ ) से:

पूर्वाग्रहों का प्रारंभ। यह संभव है और पूर्वाग्रह को शून्य करने के लिए प्रारंभिक किया जाए, क्योंकि विषमता को वजन में छोटे यादृच्छिक संख्याओं द्वारा प्रदान किया जाता है। ReLU गैर-रैखिकता के लिए, कुछ लोग छोटे निरंतर मूल्य का उपयोग करना पसंद करते हैं जैसे 0.01 सभी पूर्वाग्रहों के लिए क्योंकि यह सुनिश्चित करता है कि सभी ReLU इकाइयाँ आग में आग लगाएं और इसलिए कुछ ढाल प्राप्त करें और प्रचार करें। हालांकि, यह स्पष्ट नहीं है अगर यह एक सुसंगत सुधार प्रदान करता है (वास्तव में कुछ परिणाम यह इंगित करते हैं कि यह खराब प्रदर्शन करता है) और केवल 0 पूर्वाग्रह आरंभीकरण का उपयोग करना अधिक सामान्य है।

LSTM में 1 को पक्षपात को शुरू करना आम है - उदाहरण के लिए देखें http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf ।

— लुकास ब्यूवाल्ड
स्रोत