गहरी तंत्रिका नेटवर्क को प्रशिक्षित करते समय धीरे-धीरे क्लिपिंग


10

आरएनएन या सीएनएन का प्रशिक्षण लेते समय ग्रेडिंग क्लिपिंग कब करना चाहते हैं? मुझे विशेष रूप से बाद में दिलचस्पी है। क्लिपिंग के लिए एक अच्छा प्रारंभिक मूल्य क्या होगा? (यह निश्चित रूप से ट्यून किया जा सकता है)

जवाबों:


4

जब आप गायब हो रहे ग्रेडिएंट्स या विस्फोट करने वाले ग्रेडिएंट्स की समस्या प्राप्त कर रहे हों, तब आप ढाल क्लिपिंग करना चाहेंगे। हालांकि, दोनों परिदृश्यों के लिए, बेहतर समाधान हैं:

  • विस्फोट ढाल तब होता है जब ढाल बहुत बड़ा हो जाता है और आपको संख्यात्मक अतिप्रवाह मिलता है। यह आसानी से नेटवर्क के वज़न को छोटे मानों पर आरंभ करके तय किया जा सकता है। यदि यह काम नहीं करता है तो संभावना है कि कोड में एक बग है।

  • गायब होने वाली ढाल तब होती है जब अनुकूलन एक काठी बिंदु में फंस जाता है, प्रगति के लिए अनुकूलन के लिए ढाल बहुत छोटा हो जाता है। यह गति या आरएमएस प्रोप या दोनों (एडम अनुकूलक के रूप में भी जाना जाता है) के साथ ढाल वंश का उपयोग करके तय किया जा सकता है।

ग्रेडिंग की ऊपरी सीमा के लिए मान शुरू करना सबसे बड़ी संख्या है जो चर ले सकता है। निचले बाउंड के लिए, मैं कहूंगा कि यह समस्या विशिष्ट है लेकिन शायद 1e-10 जैसी किसी चीज से शुरू करें।


1
मुझे यकीन नहीं है कि अगर इस उत्तर का संदर्भ आरएनएन को बाहर करने के लिए माना जाता है, लेकिन अगर ऐसा नहीं होता है, तो दोनों प्रस्तावित समाधान विशेष रूप से आरएनएन के मामले में ढाल कतरन से बेहतर नहीं हैं ।
एलेक्स आर।

क्षमा करें, मैं CNNs के संदर्भ में अधिक सोच रहा था, संपादित करने के लिए स्वतंत्र महसूस कर रहा हूं
मिगुएल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.