जवाबों:
जब आप गायब हो रहे ग्रेडिएंट्स या विस्फोट करने वाले ग्रेडिएंट्स की समस्या प्राप्त कर रहे हों, तब आप ढाल क्लिपिंग करना चाहेंगे। हालांकि, दोनों परिदृश्यों के लिए, बेहतर समाधान हैं:
विस्फोट ढाल तब होता है जब ढाल बहुत बड़ा हो जाता है और आपको संख्यात्मक अतिप्रवाह मिलता है। यह आसानी से नेटवर्क के वज़न को छोटे मानों पर आरंभ करके तय किया जा सकता है। यदि यह काम नहीं करता है तो संभावना है कि कोड में एक बग है।
गायब होने वाली ढाल तब होती है जब अनुकूलन एक काठी बिंदु में फंस जाता है, प्रगति के लिए अनुकूलन के लिए ढाल बहुत छोटा हो जाता है। यह गति या आरएमएस प्रोप या दोनों (एडम अनुकूलक के रूप में भी जाना जाता है) के साथ ढाल वंश का उपयोग करके तय किया जा सकता है।
ग्रेडिंग की ऊपरी सीमा के लिए मान शुरू करना सबसे बड़ी संख्या है जो चर ले सकता है। निचले बाउंड के लिए, मैं कहूंगा कि यह समस्या विशिष्ट है लेकिन शायद 1e-10 जैसी किसी चीज से शुरू करें।