policy-gradients पर टैग किए गए जवाब

1
क्यू-लर्निंग और पॉलिसी ग्रेडिएंट विधियों के बीच क्या संबंध है?
जहां तक ​​मैं समझता हूं, Q- लर्निंग और पॉलिसी ग्रेडिएंट (PG) RL समस्याओं को हल करने के लिए उपयोग किए जाने वाले दो प्रमुख दृष्टिकोण हैं। जबकि क्यू-लर्निंग का लक्ष्य एक निश्चित राज्य में किए गए एक निश्चित कार्रवाई के इनाम की भविष्यवाणी करना है, नीतिगत ढाल सीधे कार्रवाई की …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.