मैं क्यू-लर्निंग में क्यू-मूल्य को अनुमानित करने के लिए एक न्यूरल नेटवर्क का उपयोग करने की कोशिश कर रहा हूं जैसे कि क्यू-लर्निंग में न्यूरल नेटवर्क्स का उपयोग करते हुए प्रश्न । जैसा कि पहले उत्तर में सुझाव दिया गया है, मैं आउटपुट लेयर के लिए एक रैखिक सक्रियण फ़ंक्शन का उपयोग कर रहा हूं, जबकि मैं अभी भी छिपे हुए लेयर्स में सिग्मॉइड एक्टिवेशन फ़ंक्शन का उपयोग कर रहा हूं (2, हालांकि मैं इसे बाद में बदल सकता हूं)। मैं एकल NN का भी उपयोग कर रहा हूं जो कि सलाह के अनुसार प्रत्येक क्रिया लिए आउटपुट देता है ।
हालाँकि, सरल कार्ट-पोल संतुलन समस्या के लिए एल्गोरिथ्म अभी भी विचलन कर रहा है। इसलिए, मुझे डर है कि मेरा क्यू-अपडेट गलत है। आरंभीकरण के बाद, मैंने प्रत्येक चरण पर जो किया है वह निम्नलिखित है:
- सभी कार्यों के लिए NN के आगे प्रसार का उपयोग करते हुए गणना करें।
- कोई नया कार्य, चयन , एक नए राज्य में भूमि रों टी ।
- सभी कार्यों के लिए NN के आगे प्रसार का उपयोग करते हुए गणना करें।
- त्रुटि वेक्टर को
- वजन मैट्रिक्स को अद्यतन करने के लिए एनएन के माध्यम से त्रुटि को बैकप्रोपैगेट करें।
क्या कोई मुझे इंगित कर सकता है कि मैं कहाँ गलत हो गया हूँ?
इसके अलावा, क्या आपको लगता है कि मुझे एक पूर्वाग्रह शब्द के साथ-साथ इनपुट परत और पहली छिपी परत (यानी सिग्मोइड फ़ंक्शन के लिए) को शामिल करना चाहिए? क्या इससे कोई अंतर आएगा?
आपकी मदद के लिए अग्रिम धन्यवाद। यदि आवश्यक हो तो मैं प्रश्न को स्पष्ट करने या कोड साझा करने में मदद कर सकता हूं।