कब उपयोग करना है (वह या ग्लोरोट) एक समान इनिट पर सामान्य इनिशियलाइज़ेशन? और बैच सामान्यीकरण के साथ इसके प्रभाव क्या हैं?

51

मुझे पता था कि अवशिष्ट नेटवर्क (ResNet) ने उन्हें सामान्य आरंभीकरण को लोकप्रिय बना दिया था। ResNet में, वह सामान्य इनिशियलाइज़ेशन का उपयोग करता है ~~, जबकि पहली परत He यूनिफॉर्म इनिशियलाइज़ेशन का उपयोग करती है।~~

मैंने ResNet पेपर और "डिलीटिंग डीप इन रेक्टिफायर्स" पेपर (उन्होंने इनिशियलाइज़ेशन पेपर) के माध्यम से देखा है, लेकिन मुझे सामान्य इनिट बनाम वर्दी इनिट पर कोई उल्लेख नहीं मिला है।

इसके अलावा:

बैच सामान्यीकरण हमें सीखने की उच्च दरों का उपयोग करने और आरंभीकरण के बारे में कम सावधान रहने की अनुमति देता है।

बैच नॉर्मलाइज़ेशन पेपर के सार में, यह कहा जाता है कि बैच नॉर्मलाइज़ेशन हमें आरंभीकरण के बारे में कम सावधान रहने की अनुमति देता है।

ResNet में अभी भी इस बात का ध्यान रखा जाता है कि सामान्य इनिट बनाम यूनिफ़ॉर्म इनिट का उपयोग कब किया जाए (इसके बजाय सिर्फ़ एकरूप इनिट के साथ जाएं)।

इसलिए:

कब उपयोग करना है (वह या ग्लोरोट) समान-प्रारंभ पर सामान्य-वितरित प्रारंभ?
बैच सामान्यीकरण के साथ सामान्य-वितरित आरंभिक प्रभाव क्या हैं?

नोट एक तरफ:

यह बैच सामान्यीकरण के साथ सामान्य init का उपयोग करने के लिए गाया जाता है, लेकिन मुझे इस तथ्य को वापस करने के लिए कोई कागज नहीं मिला है।
मुझे पता था कि ResNet Glorot init पर init का उपयोग करता है क्योंकि वह init एक गहरे नेटवर्क पर बेहतर करता है।
मैंने Glorot init बनाम He init के बारे में समझा है ।
मेरा सवाल नॉर्मल बनाम यूनिफॉर्म इनिट के बारे में है।

neural-network deep-learning normalization

— rilut
स्रोत

34

सामान्य बनाम वर्दी इनिट वास्तव में अस्पष्ट प्रतीत होती है।

अगर हम पूरी तरह से ग्लोरोट के और वह इनिशियलाइज़ेशन पेपर्स का हवाला देते हैं , तो वे दोनों एक समान सैद्धांतिक विश्लेषण का उपयोग करते हैं: वे उस वितरण के लिए एक अच्छा विचरण पाते हैं, जहाँ से शुरुआती पैरामीटर खींचे जाते हैं। यह विचरण उपयोग किए गए सक्रियण फ़ंक्शन के अनुकूल है और वितरण के प्रकार पर स्पष्ट रूप से विचार किए बिना व्युत्पन्न है। जैसे, उनके सैद्धांतिक निष्कर्ष निर्धारित विचरण के किसी भी प्रकार के वितरण के लिए हैं। वास्तव में, ग्लोरोट पेपर में, एक समान वितरण का उपयोग किया जाता है जबकि हे पेपर में यह एक गॉसियन होता है जिसे चुना जाता है। ही पेपर में इस पसंद के लिए दिया गया एकमात्र "स्पष्टीकरण" है:

हाल के गहरे सीएनएन को ज्यादातर गौसियन डिस्ट्रीब्यूशन से तैयार रैंडम वेट द्वारा इनिशियलाइज़ किया जाता है

एलेक्सनेट पेपर के संदर्भ में । यह वास्तव में ग्लोरोट के आरंभीकरण की तुलना में थोड़ी देर बाद जारी किया गया था, लेकिन एक सामान्य वितरण के उपयोग के लिए इसमें कोई औचित्य नहीं है।

वास्तव में, केयर्स के मुद्दों पर चर्चा में ट्रैकर , वे भी थोड़ा उलझन में हैं और मूल रूप से यह केवल वरीयता का मामला हो सकता है ... (यानी काल्पनिक रूप से बेंगियो एक समान वितरण पसंद करेंगे जबकि हिंटन सामान्य पसंद करेंगे ...) एक चर्चा, एक समान और एक गाऊसी वितरण का उपयोग करके ग्लोरोट आरंभीकरण की तुलना करने वाला एक छोटा बेंचमार्क है। अंत में, ऐसा लगता है कि वर्दी जीतती है लेकिन यह वास्तव में स्पष्ट नहीं है।

मूल ResNet कागज में , यह केवल कहता है कि उन्होंने सभी परतों के लिए एक गाऊसी He init का उपयोग किया था, मुझे यह पता नहीं चल पा रहा था कि यह कहाँ लिखा है कि उन्होंने पहली परत के लिए एक समान He Init का उपयोग किया था। (शायद आप इसके लिए एक संदर्भ साझा कर सकते हैं?)

बैच सामान्यीकरण के साथ गाऊसी इनिट के उपयोग के रूप में, अच्छी तरह से, बीएन के साथ अनुकूलन प्रक्रिया आरंभीकरण के लिए कम संवेदनशील है इस प्रकार यह सिर्फ एक सम्मेलन है जो मैं कहूंगा।

— tlorieul
स्रोत

मैंने उसे गलत समझा। आप सही हैं कि ResNet किसी भी समान इनिशियलाइज़ेशन का उपयोग नहीं करता है। मुझे सही साबित होना है।

— rilut

0

कृपया कार्रवाई में एक हाइपर-मापदंडों को पढ़ें ! भाग II - भार प्रारंभिक

— rocksyne
स्रोत

1

कृपया, केवल लिंक पोस्ट करने से बचें। कोई भी लिंक कुछ समय बाद मृत हो सकता है और नए पाठक उत्तर की जांच नहीं कर पाएंगे। आप एक लिंक पोस्ट कर सकते हैं, लेकिन हमेशा पाठ के रूप में सबसे महत्वपूर्ण भाग का सारांश भी जोड़ सकते हैं।

— टैसोस

@ टैसोस टिप्पणी अच्छी तरह से उल्लेख किया। संक्षेप में प्रस्तुत करने के लिए बहुत अधिक जानकारी थी और इसलिए मैंने इसके बजाय लिंक पोस्ट किया और मुझे लिंक के टूट जाने पर आपकी बात मिल गई। धन्यवाद।

— चट्टानी वंश