[१] प्रश्न को संबोधित करता है:
सबसे पहले, बैकग्राउंडिंग करते समय समरूपता को तोड़ने के लिए वजन शून्य पर सेट नहीं किया जाना चाहिए:
गैसों को आम तौर पर शून्य से शुरू किया जा सकता है, लेकिन एक ही परत की छिपी हुई इकाइयों के बीच समरूपता को तोड़ने के लिए वजन को ध्यान से प्रारंभिक करने की आवश्यकता है। क्योंकि अलग-अलग आउटपुट इकाइयाँ अलग-अलग ग्रेडिएंट सिग्नल प्राप्त करती हैं, यह समरूपता ब्रेकिंग इश्यू आउटपुट वज़न (आउटपुट इकाइयों में) की चिंता नहीं करता है, इसलिए इसे शून्य पर सेट भी किया जा सकता है।
कुछ आरंभिक रणनीतियाँ:
- [२] और [३] प्रशंसक के वर्गमूल के व्युत्क्रम से स्केलिंग की सलाह देते हैं
- ग्लोरोट और बेंगियो (2010) और डीप लर्निंग ट्युटोरियल्स में फैन-इन और फैन-आउट के संयोजन का उपयोग किया जाता है:
- हाइपरबोलिक स्पर्शरेखा इकाइयों के लिए: साथ एक समान (-r, r) का नमूना लेंr=6fan-in+fan-out−−−−−−−−−√
- सिग्मॉइड इकाइयों के लिए: साथ एक समान (-r, r) का नमूना लेंr=46fan-in+fan-out−−−−−−−−−√
- आरबीएम के मामले में, एक शून्य मतलब गौसियन एक छोटे मानक विचलन के साथ लगभग 0.1 या 0.01 अच्छी तरह से काम करता है (हिंटन, 2010) वजन को कम करने के लिए।
- ऑर्थोगोनल रैंडम मैट्रिक्स इनिशियलाइज़ेशन, यानी
W = np.random.randn(ndim, ndim); u, s, v = np.linalg.svd(W)
तब u
अपने इनिशियलाइज़ेशन मैट्रिक्स के रूप में उपयोग करें।
इसके अलावा, बिना पूर्व-प्रशिक्षण के कुछ स्थितियों में मदद मिल सकती है:
एक महत्वपूर्ण विकल्प यह है कि क्या मापदंडों को आरंभ करने के लिए किसी को पूर्व-प्रशिक्षित प्रशिक्षण (और कौन-सी अनुपयोगी सुविधा सीखने के एल्गोरिदम का उपयोग करना चाहिए) का उपयोग करना चाहिए। अधिकांश सेटिंग्स में हमने अनपर्वलाइज्ड प्री-ट्रेनिंग को मदद करने के लिए और बहुत कम ही चोट पहुंचाने के लिए पाया है, लेकिन निश्चित रूप से इसका मतलब है कि अतिरिक्त प्रशिक्षण समय और अतिरिक्त हाइपर-पैरामीटर।
कुछ ANN पुस्तकालयों में भी कुछ रोचक सूचियाँ हैं, जैसे Lasagne :
Constant([val]) Initialize weights with constant value.
Normal([std, mean]) Sample initial weights from the Gaussian distribution.
Uniform([range, std, mean]) Sample initial weights from the uniform distribution.
Glorot(initializer[, gain, c01b]) Glorot weight initialization.
GlorotNormal([gain, c01b]) Glorot with weights sampled from the Normal distribution.
GlorotUniform([gain, c01b]) Glorot with weights sampled from the Uniform distribution.
He(initializer[, gain, c01b]) He weight initialization.
HeNormal([gain, c01b]) He initializer with weights sampled from the Normal distribution.
HeUniform([gain, c01b]) He initializer with weights sampled from the Uniform distribution.
Orthogonal([gain]) Intialize weights as Orthogonal matrix.
Sparse([sparsity, std]) Initialize weights as sparse matrix.
[१] बेंगियो, योशुआ। " गहरे आर्किटेक्चर के ग्रेडिएंट-आधारित प्रशिक्षण के लिए व्यावहारिक सिफारिशें। " तंत्रिका नेटवर्क: ट्रिक्स ऑफ़ द ट्रेड। स्प्रिंगर बर्लिन हीडलबर्ग, 2012. 437-478।
[२] लेकुन, वाई।, बोटाउ, एल।, ओआरआर, जीबी और मुलर, के। (१ ९९ un ए)। कुशल बैकप्रॉप। तंत्रिका नेटवर्क में, व्यापार के गुर ।
[३] ग्लोरोट, जेवियर और योशुआ बेंगियो। " गहरी फीडफ़ॉर्मल तंत्रिका नेटवर्क के प्रशिक्षण की कठिनाई को समझना ।" कृत्रिम बुद्धिमत्ता और सांख्यिकी पर अंतर्राष्ट्रीय सम्मेलन। 2010।