कुछ ट्यूटोरियल्स में मैंने पाया कि "जेवियर" वेट इनिशियलाइज़ेशन (पेपर: डीप फीडफोरवर्ड न्यूरल नेटवर्क के प्रशिक्षण की कठिनाई को समझना ) न्यूरल नेटवर्क के वज़न को कम करने का एक कारगर तरीका है।
पूरी तरह से जुड़ी हुई परतों के लिए उन ट्यूटोरियल में अंगूठे का एक नियम था:
जहाँ एक परत के लिए भार का प्रसरण है, जिसे एक सामान्य वितरण के साथ प्रारंभ किया जाता है और , जनक और वर्तमान परत में न्यूरॉन्स की मात्रा है।n i n n o u t
क्या संकेंद्रित परतों के लिए अंगूठे के समान नियम हैं?
मैं यह पता लगाने के लिए संघर्ष कर रहा हूं कि एक दृढ़ परत के भार को शुरू करने के लिए सबसे अच्छा क्या होगा। उदाहरण के लिए, एक परत में जहां वज़न का (5, 5, 3, 8)
आकार होता है , इसलिए कर्नेल का आकार 5x5
, तीन इनपुट चैनलों (आरजीबी इनपुट) को फ़िल्टर करना और 8
फ़ीचर मैप बनाना ... 3
इनपुट न्यूरॉन्स की मात्रा माना जाएगा ? या बल्कि 75 = 5*5*3
, क्योंकि इनपुट 5x5
प्रत्येक रंग चैनल के लिए पैच हैं ?
मैं दोनों को स्वीकार करता हूं, समस्या को स्पष्ट करने वाला एक विशिष्ट उत्तर या अधिक "जेनेरिक" जवाब है, जो वजन के सही प्रारंभ और सामान्य रूप से लिंक करने वाले स्रोतों को खोजने की सामान्य प्रक्रिया को समझाता है।