4
मूल्य पुनरावृत्ति और नीति पुनरावृत्ति के बीच अंतर क्या है?
सुदृढीकरण सीखने में, नीति पुनरावृत्ति और मूल्य पुनरावृत्ति में क्या अंतर है ? जितना मैं समझता हूं, मूल्य पुनरावृत्ति में, आप इष्टतम नीति के समाधान के लिए बेलमैन समीकरण का उपयोग करते हैं, जबकि, नीति पुनरावृत्ति में, आप बेतरतीब ढंग से एक नीति π का चयन करते हैं, और उस …