1
क्यू-लर्निंग और पॉलिसी ग्रेडिएंट विधियों के बीच क्या संबंध है?
जहां तक मैं समझता हूं, Q- लर्निंग और पॉलिसी ग्रेडिएंट (PG) RL समस्याओं को हल करने के लिए उपयोग किए जाने वाले दो प्रमुख दृष्टिकोण हैं। जबकि क्यू-लर्निंग का लक्ष्य एक निश्चित राज्य में किए गए एक निश्चित कार्रवाई के इनाम की भविष्यवाणी करना है, नीतिगत ढाल सीधे कार्रवाई की …