सांख्यिकी और बिग डेटा policy-iteration

नीति पुनरावृत्ति एल्गोरिथ्म इष्टतम नीति और मूल्य फ़ंक्शन में क्यों परिवर्तित होता है?

मैं सुदृढीकरण सीखने पर एंड्रयू एनजी के व्याख्यान नोट्स पढ़ रहा था , और मैं यह समझने की कोशिश कर रहा था कि नीति पुनरावृत्ति इष्टतम मान फ़ंक्शन और इष्टतम नीति क्यों परिवर्तित हुई ।V∗V∗V^*π∗π∗\pi^* याद रखें नीति पुनरावृत्ति है: प्रारंभिक π बेतरतीब ढंग सेरिपीट {एल ई टी वी : …

10 reinforcement-learning policy-iteration

policy-iteration पर टैग किए गए जवाब