मैं थोड़ा अनुसंधान के लिए सरल तंत्रिका नेटवर्क लिखने के लिए टेंसरफ़्लो का उपयोग कर रहा हूं और मुझे प्रशिक्षण के दौरान 'नेन' वेट के साथ कई समस्याएं हुई हैं। मैंने कई अलग-अलग समाधानों की कोशिश की जैसे कि ऑप्टिमाइज़र को बदलना, नुकसान को बदलना, डेटा का आकार, आदि। लेकिन कोई फायदा नहीं हुआ। अंत में, मैंने देखा कि सीखने की दर में बदलाव से मेरे वजन में अविश्वसनीय अंतर आया।
.001 की एक सीखने की दर का उपयोग करना (जो मुझे लगा कि बहुत रूढ़िवादी था), न्यूनतम फ़ंक्शन वास्तव में तेजी से नुकसान उठाएगा। एक युग के बाद नुकसान हजारों की संख्या में एक ट्रिलियन और फिर अनंत ('नान') में कूद सकता है। जब मैंने सीखने की दर को .0001 से कम किया, तो सब कुछ ठीक रहा।
1) परिमाण के एकल आदेश का ऐसा प्रभाव क्यों होता है?
2) न्यूनतम फ़ंक्शन वास्तव में अपने फ़ंक्शन के विपरीत प्रदर्शन क्यों करता है और नुकसान को अधिकतम करता है? मुझे लगता है कि ऐसा नहीं होना चाहिए, सीखने की दर से कोई फर्क नहीं पड़ता।