प्रोग्रामिंग markov-models

मूल्य पुनरावृत्ति और नीति पुनरावृत्ति के बीच अंतर क्या है?

सुदृढीकरण सीखने में, नीति पुनरावृत्ति और मूल्य पुनरावृत्ति में क्या अंतर है ? जितना मैं समझता हूं, मूल्य पुनरावृत्ति में, आप इष्टतम नीति के समाधान के लिए बेलमैन समीकरण का उपयोग करते हैं, जबकि, नीति पुनरावृत्ति में, आप बेतरतीब ढंग से एक नीति π का चयन करते हैं, और उस …

93 machine-learning reinforcement-learning markov-models value-iteration

markov-models पर टैग किए गए जवाब