की Tensorflow के क्रियान्वयन में ResNet , मैं वे विचरण स्केलिंग प्रारंभकर्ता उपयोग करते हैं, मैं भी जेवियर खोजने के प्रारंभकर्ता लोकप्रिय है पाते हैं। मुझे इस पर बहुत अधिक अनुभव नहीं है, जो अभ्यास में बेहतर है?
की Tensorflow के क्रियान्वयन में ResNet , मैं वे विचरण स्केलिंग प्रारंभकर्ता उपयोग करते हैं, मैं भी जेवियर खोजने के प्रारंभकर्ता लोकप्रिय है पाते हैं। मुझे इस पर बहुत अधिक अनुभव नहीं है, जो अभ्यास में बेहतर है?
जवाबों:
ज़ेवियर इनिशियलाइज़ेशन , जो मूल रूप से ज़ेवियर ग्लोरोट और योशुआ बेंगियो द्वारा प्रस्तावित किया गया था, "गहरी फीडफॉर्वर्ड न्यूरल नेटवर्क को प्रशिक्षित करने की कठिनाई को समझना" , वेट्स इनिशियलाइज़ेशन तकनीक है जो अपने इनपुट के विचरण के बराबर होने के लिए एक परत के आउटपुट के विचरण को बनाने की कोशिश करता है। । यह विचार व्यवहार में बहुत उपयोगी निकला। स्वाभाविक रूप से, यह आरंभिक परत सक्रियण फ़ंक्शन पर निर्भर करता है। और उनके पेपर में, ग्लोरोट और बेंगियो ने लॉजिस्टिक सिग्मोइड सक्रियण फ़ंक्शन पर विचार किया , जो उस समय डिफ़ॉल्ट विकल्प था।
बाद में, रिगू द्वारा सिग्मॉइड सक्रियण को पार कर गया था, क्योंकि इसने गायब होने / विस्फोट करने वाले ग्रेडिएंट्स समस्या को हल करने की अनुमति दी थी। नतीजतन, एक नई आरंभीकरण तकनीक दिखाई दी, जिसने इस सक्रियण समारोह में एक ही विचार (सक्रियण के विचलन का संतुलन) को लागू किया। इसे कैमिंग हे द्वारा "डेलिगेट डीप इन रेक्टिफायर्स: सर्जिंग ह्यूमन-लेवल परफॉर्मेंस ऑन इमेजनेट क्लासिफिकेशन" में अल द्वारा प्रस्तावित किया गया था , और अब इसे अक्सर वे इनिशियलाइज़ेशन कहते हैं ।
टेंसोफ़्लो में, वह आरंभीकरण variance_scaling_initializer()
फ़ंक्शन में कार्यान्वित किया जाता है (जो वास्तव में, एक अधिक सामान्य इनिशियलाइज़र है, लेकिन डिफ़ॉल्ट रूप से वह इनिशियलाइज़ेशन करता है), जबकि ज़ेवियर इनिशियलाइज़र तार्किक है xavier_initializer()
।
सारांश में, मशीन सीखने वाले चिकित्सकों के लिए मुख्य अंतर निम्नलिखित है:
tanh()
सक्रियण फ़ंक्शन के लिए, मुझे किस आरंभीकरण फ़ंक्शन का उपयोग करना चाहिए।
भिन्न स्केलिंग केवल जेवियर का एक सामान्यीकरण है: http://tflearn.org/initialifications/ । वे दोनों इस सिद्धांत पर काम करते हैं कि ग्रेडिएंट्स का पैमाना सभी परतों के समान होना चाहिए। ज़ेवियर का उपयोग करने के लिए सुरक्षित है क्योंकि यह समय की प्रायोगिक परीक्षा से पीछे हट गया है; विचरण स्केलिंग के लिए अपने स्वयं के मापदंडों को लेने की कोशिश करना प्रशिक्षण को बाधित कर सकता है या आपके नेटवर्क को बिल्कुल भी नहीं कमा सकता है।