तो, हाल ही में एक लेयर नॉर्मलाइज़ेशन पेपर है। केरस पर इसका कार्यान्वयन भी है ।
लेकिन मुझे याद है कि रिकरेंट बैच नॉर्मलाइजेशन (कोइजमैन, 2016) और बैच नॉर्मलाइज्ड रिकरंट न्यूरल नेटवर्क्स (लॉरेंट, 2015) शीर्षक वाले पेपर हैं । उन तीनों में क्या अंतर है?
यह संबंधित कार्य खंड है जो मुझे समझ में नहीं आता है:
बैच सामान्यीकरण को पहले आवर्तक तंत्रिका नेटवर्क [लॉरेंट एट अल।, 2015, अमोडी एट अल।, 2015, कोइज़्मों एट अल।, 2016] में बढ़ाया गया है। पिछला कार्य [कोइज़मैंस एट अल।, 2016] बताता है कि प्रत्येक बार-चरण के लिए स्वतंत्र सामान्यीकरण के आंकड़ों को ध्यान में रखते हुए आवर्तक बैच सामान्यीकरण का सबसे अच्छा प्रदर्शन प्राप्त होता है। लेखक दिखाते हैं कि आवर्तक बैच सामान्यीकरण परत में 0.1 से लाभ पैरामीटर को शुरू करने से मॉडल के अंतिम प्रदर्शन में महत्वपूर्ण अंतर आता है। हमारा काम वजन सामान्यीकरण [सलीमन्स और किंग्मा, 2016] से भी संबंधित है। वज़न सामान्यीकरण में, विचरण के बजाय, आने वाले वज़न के L2 मानदंड का उपयोग न्यूरॉन के सुन्न किए गए इनपुट को सामान्य करने के लिए किया जाता है। अपेक्षित आँकड़ों का उपयोग करके या तो वेट नॉर्मलाइज़ेशन या बैच नॉर्मलाइज़ेशन लागू करना मूल फीड-फ़ॉर न्यूरल नेटवर्क के एक अलग पैरामीटरेशन के बराबर है। ReLU नेटवर्क में पुन: परिमाणीकरण का अध्ययन Pathnormalized SGD [Neyshabur etout, 2015] में किया गया था। हमारी प्रस्तावित परत सामान्यीकरण विधि, हालांकि, मूल तंत्रिका नेटवर्क का पुन: परिमाणीकरण नहीं है। इस प्रकार, सामान्यीकृत परत में अन्य तरीकों की तुलना में अलग-अलग गुण होते हैं , जिनका हम निम्नलिखित खंड में अध्ययन करेंगे