policy-iteration पर टैग किए गए जवाब

2
नीति पुनरावृत्ति एल्गोरिथ्म इष्टतम नीति और मूल्य फ़ंक्शन में क्यों परिवर्तित होता है?
मैं सुदृढीकरण सीखने पर एंड्रयू एनजी के व्याख्यान नोट्स पढ़ रहा था , और मैं यह समझने की कोशिश कर रहा था कि नीति पुनरावृत्ति इष्टतम मान फ़ंक्शन और इष्टतम नीति क्यों परिवर्तित हुई ।V∗V∗V^*π∗π∗\pi^* याद रखें नीति पुनरावृत्ति है: प्रारंभिक π बेतरतीब ढंग सेरिपीट {एल ई टी वी : …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.