HOW TO: डीप न्यूरल नेटवर्क वेट इनिशियलाइज़ेशन


10

कठिन शिक्षण कार्य (जैसे उच्च आयामीता, अंतर्निहित डेटा जटिलता) को देखते हुए डीप न्यूरल नेटवर्क्स को प्रशिक्षित करना कठिन हो जाता है। समस्याओं में से कई को कम करने के लिए:

  1. सामान्य और & amp; गुणवत्ता डेटा को हैंडपिक करें
  2. एक अलग प्रशिक्षण एल्गोरिथ्म चुनें (जैसे कि ग्रेडिएंट डिसेंट के बजाय RMSprop)
  3. स्टेपर ग्रेडिएंट कॉस्ट फंक्शन चुनें (जैसे MSE के बजाय क्रॉस एंट्रॉपी)
  4. अलग-अलग नेटवर्क संरचना का उपयोग करें (उदाहरण के लिए फीडफोवर्ड के बजाय कन्वर्सेशन लेयर्स)

मैंने सुना है कि बेहतर वजन को शुरू करने के लिए चतुर तरीके हैं। उदाहरण के लिए आप बेहतर परिमाण चुन सकते हैं: ग्लोरोट और बेंगियो (2010)

  • सिग्मॉइड इकाइयों के लिए: एक समान (-r, r) के साथ नमूनाआर=6एनमैंn+एनयूटी
  • या अतिशयोक्तिपूर्ण स्पर्शरेखा इकाइयाँ: एक समान (-r, r) के साथ नमूनाआर=46एनमैंn+एनयूटी

क्या वज़न को बेहतर बनाने का कोई लगातार तरीका है?

जवाबों:


7

जहाँ तक मुझे पता है कि आपने जो दो सूत्र दिए हैं, वे बहुत मानक मानकीकरण हैं। मैंने थोड़ी देर पहले एक साहित्य समीक्षा की थी, मैंने नीचे रुचि होने पर इसे कॉपी किया था।


[१] प्रश्न को संबोधित करता है:

सबसे पहले, बैकग्राउंडिंग करते समय समरूपता को तोड़ने के लिए वज़न को शून्य पर सेट नहीं किया जाना चाहिए:

गैसों को आम तौर पर शून्य से शुरू किया जा सकता है, लेकिन एक ही परत की छिपी हुई इकाइयों के बीच समरूपता को तोड़ने के लिए वजन को सावधानी से शुरू करने की आवश्यकता होती है। क्योंकि विभिन्न आउटपुट इकाइयों को अलग-अलग ग्रेडिएंट सिग्नल मिलते हैं, इसलिए यह समरूपता ब्रेकिंग इश्यू आउटपुट वेट्स (आउटपुट यूनिट्स में) की चिंता नहीं करता है, इसलिए इसे शून्य पर सेट भी किया जा सकता है।

कुछ आरंभिक रणनीतियाँ:

  • [२] और [३] प्रशंसक के वर्गमूल के व्युत्क्रम से स्केलिंग की सलाह देते हैं
  • ग्लोरोट और बेंगियो (2010) और दीप लर्निंग ट्युटोरियल्स में फैन-इन और फैन-आउट के संयोजन का उपयोग किया गया है:
    • सिग्मॉइड इकाइयों के लिए: एक समान (-r, r) के साथ नमूना आर=6प्रशंसक में+प्रशंसक बाहर (फैन-इन यूनिट के इनपुट की संख्या है)।
    • हाइपरबोलिक स्पर्शरेखा इकाइयों के लिए: एक वर्दी (-r, r) के साथ नमूना आर=46प्रशंसक में+प्रशंसक बाहर (फैन-इन यूनिट के इनपुट की संख्या है)।
  • आरबीएम के मामले में, एक शून्य मतलब गौसियन एक छोटे मानक विचलन के साथ लगभग 0.1 या 0.01 अच्छी तरह से काम करता है (हिंटन, 2010) वजन को कम करने के लिए।
  • ऑर्थोगोनल रैंडम मैट्रिक्स इनिशियलाइज़ेशन, यानी W = np.random.randn(ndim, ndim); u, s, v = np.linalg.svd(W)तब uअपने इनिशियलाइज़ेशन मैट्रिक्स के रूप में उपयोग करें।

इसके अलावा, बिना पूर्व-प्रशिक्षण के कुछ स्थितियों में मदद मिल सकती है:

एक महत्वपूर्ण विकल्प यह है कि क्या मापदंडों को आरंभ करने के लिए किसी को पूर्व-प्रशिक्षित प्रशिक्षण (और कौन-सी अनुपयोगी सुविधा लर्निंग एल्गोरिदम का उपयोग करना चाहिए) का उपयोग करना चाहिए। अधिकांश सेटिंग्स में हमने अनपर्वलाइज्ड प्री-ट्रेनिंग को मदद करने के लिए पाया है और शायद ही कभी चोट पहुंचाने के लिए, लेकिन निश्चित रूप से इसका मतलब है कि अतिरिक्त प्रशिक्षण समय और अतिरिक्त हाइपर-पैरामीटर।

कुछ ANN पुस्तकालयों में भी कुछ दिलचस्प सूचियाँ हैं, जैसे Lasagne :

Constant([val]) Initialize weights with constant value.
Normal([std, mean]) Sample initial weights from the Gaussian distribution.
Uniform([range, std, mean]) Sample initial weights from the uniform distribution.
Glorot(initializer[, gain, c01b])   Glorot weight initialization.
GlorotNormal([gain, c01b])  Glorot with weights sampled from the Normal distribution.
GlorotUniform([gain, c01b]) Glorot with weights sampled from the Uniform distribution.
He(initializer[, gain, c01b])   He weight initialization.
HeNormal([gain, c01b])  He initializer with weights sampled from the Normal distribution.
HeUniform([gain, c01b]) He initializer with weights sampled from the Uniform distribution.
Orthogonal([gain])  Intialize weights as Orthogonal matrix.
Sparse([sparsity, std]) Initialize weights as sparse matrix.

[१] बेंगियो, योशुआ। " गहरे आर्किटेक्चर के ग्रेडिएंट-आधारित प्रशिक्षण के लिए व्यावहारिक सिफारिशें। " तंत्रिका नेटवर्क: व्यापार के गुर। स्प्रिंगर बर्लिन हीडलबर्ग, 2012. 437-478।

[२] लेकुन, वाई।, बोटौ, एल।, ओआरआर, जीबी और मुलर, के। (१ ९९ un ए)। कुशल बैकप्रॉप। तंत्रिका नेटवर्क में, व्यापार के गुर

[३] ग्लोरोट, ज़ेवियर और योशुआ बेंगियो। " गहन फीडफॉर्वर्ड न्यूरल नेटवर्क के प्रशिक्षण की कठिनाई को समझना ।" कृत्रिम बुद्धिमत्ता और सांख्यिकी पर अंतर्राष्ट्रीय सम्मेलन। 2010।


2
आपको जो कुछ याद आ रहा है वह है बैच सामान्यीकरण। यहाँ वर्णित है: arxiv.org/abs/1502.03167 उपयोगी हो सकता है।
जूनटैन सैमुअल

कैमिंग हे, जियानग्यु झांग, शाओकिंग रेन, जियान सन ने एक नया लेख प्रकाशित किया है जिसमें ग्लोरोट और बेंगियो से जेवियर वजन के आरंभीकरण की भिन्नता शामिल है: " डेलिंग डीप इन रेक्टीफायर्स: सर्जिंग ह्यूमन-लेवल परफॉर्मेंस ऑन इमेजनेट क्लासिफिकेशन"
एमजुल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.