पेपर: लेयर नॉर्मलाइज़ेशन, रिकरेंट बैच नॉर्मलाइज़ेशन (2016) और बैच नॉर्मलाइज़्ड आरएनएन (2015) में क्या अंतर है?


30

तो, हाल ही में एक लेयर नॉर्मलाइज़ेशन पेपर है। केरस पर इसका कार्यान्वयन भी है ।

लेकिन मुझे याद है कि रिकरेंट बैच नॉर्मलाइजेशन (कोइजमैन, 2016) और बैच नॉर्मलाइज्ड रिकरंट न्यूरल नेटवर्क्स (लॉरेंट, 2015) शीर्षक वाले पेपर हैं । उन तीनों में क्या अंतर है?

यह संबंधित कार्य खंड है जो मुझे समझ में नहीं आता है:

बैच सामान्यीकरण को पहले आवर्तक तंत्रिका नेटवर्क [लॉरेंट एट अल।, 2015, अमोडी एट अल।, 2015, कोइज़्मों एट अल।, 2016] में बढ़ाया गया है। पिछला कार्य [कोइज़मैंस एट अल।, 2016] बताता है कि प्रत्येक बार-चरण के लिए स्वतंत्र सामान्यीकरण के आंकड़ों को ध्यान में रखते हुए आवर्तक बैच सामान्यीकरण का सबसे अच्छा प्रदर्शन प्राप्त होता है। लेखक दिखाते हैं कि आवर्तक बैच सामान्यीकरण परत में 0.1 से लाभ पैरामीटर को शुरू करने से मॉडल के अंतिम प्रदर्शन में महत्वपूर्ण अंतर आता है। हमारा काम वजन सामान्यीकरण [सलीमन्स और किंग्मा, 2016] से भी संबंधित है। वज़न सामान्यीकरण में, विचरण के बजाय, आने वाले वज़न के L2 मानदंड का उपयोग न्यूरॉन के सुन्न किए गए इनपुट को सामान्य करने के लिए किया जाता है। अपेक्षित आँकड़ों का उपयोग करके या तो वेट नॉर्मलाइज़ेशन या बैच नॉर्मलाइज़ेशन लागू करना मूल फीड-फ़ॉर न्यूरल नेटवर्क के एक अलग पैरामीटरेशन के बराबर है। ReLU नेटवर्क में पुन: परिमाणीकरण का अध्ययन Pathnormalized SGD [Neyshabur etout, 2015] में किया गया था। हमारी प्रस्तावित परत सामान्यीकरण विधि, हालांकि, मूल तंत्रिका नेटवर्क का पुन: परिमाणीकरण नहीं है। इस प्रकार, सामान्यीकृत परत में अन्य तरीकों की तुलना में अलग-अलग गुण होते हैं , जिनका हम निम्नलिखित खंड में अध्ययन करेंगे

जवाबों:


25
  • परत सामान्यीकरण ( बा 2016 ): बैच के आँकड़ों का उपयोग नहीं करता है। वर्तमान नमूने की एक परत के भीतर सभी इकाइयों से एकत्र किए गए आंकड़ों का उपयोग करके सामान्य करें। ConvNets के साथ अच्छी तरह से काम नहीं करता है।

  • आवर्तक बैच सामान्यीकरण (बीएन), ( Cooijmans, 2016 ; Qianli Liao & Tomaso Poggio द्वारा भी समवर्ती रूप से प्रस्तावित किया गया था, लेकिन RNN / LSTM के बजाय आवर्तक रूपांतरण पर परीक्षण किया गया) - बैच सामान्यीकरण के रूप में भी। प्रत्येक समय चरण के लिए विभिन्न सामान्यीकरण आँकड़ों का उपयोग करें। आपको प्रत्येक समय कदम के लिए माध्य और मानक विचलन का एक सेट संग्रहीत करने की आवश्यकता है।

  • बैच सामान्यीकृत आवर्तक तंत्रिका नेटवर्क ( लॉरेंट, 2015 ): बैच सामान्यीकरण केवल इनपुट और छिपे हुए राज्य के बीच लागू किया जाता है, लेकिन छिपे हुए राज्यों के बीच नहीं। समय के साथ सामान्यीकरण लागू नहीं होता है।

  • स्ट्रीमिंग सामान्यीकरण ( लियाओ एट अल। 2016 ): यह मौजूदा सामान्यीकरणों को सारांशित करता है और ऊपर वर्णित अधिकांश मुद्दों पर काबू पाता है। यह ConvNets, आवर्तक सीखने और ऑनलाइन सीखने (यानी, एक समय में छोटा मिनी बैच या एक नमूना) के साथ अच्छी तरह से काम करता है:

  • एल2एल21y=एक्स*(w/|w|)एक्सwजीy=y*जीजी प्रदर्शन के लिए आवश्यक नहीं लगता है (यह भी सीखने योग्य परतें इसे वैसे भी सीख सकती हैं)।

  • एल2y=(एक्स/|एक्स|)*(w/|w|)एक्सw

ध्यान दें कि वज़न और कोसाइन नॉर्मलाइज़ेशन दोनों को 2000 के दशक में बड़े पैमाने पर इस्तेमाल किया जाता है (जिसे सामान्यीकृत डॉट उत्पाद कहा जाता है) जैविक दृष्टि को मॉडल बनाने के लिए HMAX (Riesenhuber 1999) नामक कन्वर्नेट्स की एक श्रेणी में। आप उन्हें दिलचस्प लग सकते हैं।

संदर्भ: HMAX मॉडल संदर्भ

संदर्भ: Cortical नेटवर्क सिम्युलेटर संदर्भ

रेफरी: कोसाइन नॉर्मलाइज़ेशन: न्यूरल नेटवर्क्स में डॉट प्रोडक्ट के बजाय कॉसिन समानता का उपयोग करना , लुओ चुन्जी, ज़ान जियानफ़ेंग, वांग लेई, यांग किआंग

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.