मैंने scipy.optimize.minimize (Conjugate gradient) अनुकूलन फ़ंक्शन का उपयोग करके अजगर में एक कृत्रिम तंत्रिका नेटवर्क बनाया है।
मैंने ग्रेडिएंट चेकिंग, डबल चेक सबकुछ आदि को लागू किया है और मुझे पूरा यकीन है कि यह सही तरीके से काम कर रहा है।
मैंने इसे कुछ बार चलाया है और यह 'ऑप्टिमाइज़ेशन सफलतापूर्वक समाप्त' तक पहुँच जाता है, हालाँकि जब मैं छिपी हुई परतों की संख्या बढ़ाता हूँ, तो इसे सफलतापूर्वक समाप्त करने के बाद परिकल्पना की लागत बढ़ जाती है (बाकी सब कुछ वही रखा जाता है)।
सहज रूप से यह महसूस होता है कि छिपी हुई परतों की संख्या में वृद्धि होने पर लागत कम होनी चाहिए, क्योंकि यह एक अधिक जटिल परिकल्पना उत्पन्न करने में सक्षम है जो डेटा को बेहतर ढंग से फिट कर सकता है, हालांकि ऐसा प्रतीत नहीं होता है।
मुझे यह समझने में दिलचस्पी होगी कि यहां क्या हो रहा है, या यदि मैंने तंत्रिका जाल को गलत तरीके से लागू किया है?