2
नीति पुनरावृत्ति एल्गोरिथ्म इष्टतम नीति और मूल्य फ़ंक्शन में क्यों परिवर्तित होता है?
मैं सुदृढीकरण सीखने पर एंड्रयू एनजी के व्याख्यान नोट्स पढ़ रहा था , और मैं यह समझने की कोशिश कर रहा था कि नीति पुनरावृत्ति इष्टतम मान फ़ंक्शन और इष्टतम नीति क्यों परिवर्तित हुई ।V∗V∗V^*π∗π∗\pi^* याद रखें नीति पुनरावृत्ति है: प्रारंभिक π बेतरतीब ढंग सेरिपीट {एल ई टी वी : …