markov-models पर टैग किए गए जवाब

4
मूल्य पुनरावृत्ति और नीति पुनरावृत्ति के बीच अंतर क्या है?
सुदृढीकरण सीखने में, नीति पुनरावृत्ति और मूल्य पुनरावृत्ति में क्या अंतर है ? जितना मैं समझता हूं, मूल्य पुनरावृत्ति में, आप इष्टतम नीति के समाधान के लिए बेलमैन समीकरण का उपयोग करते हैं, जबकि, नीति पुनरावृत्ति में, आप बेतरतीब ढंग से एक नीति π का ​​चयन करते हैं, और उस …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.