q-learning पर टैग किए गए जवाब

1
क्यू-लर्निंग और पॉलिसी ग्रेडिएंट विधियों के बीच क्या संबंध है?
जहां तक ​​मैं समझता हूं, Q- लर्निंग और पॉलिसी ग्रेडिएंट (PG) RL समस्याओं को हल करने के लिए उपयोग किए जाने वाले दो प्रमुख दृष्टिकोण हैं। जबकि क्यू-लर्निंग का लक्ष्य एक निश्चित राज्य में किए गए एक निश्चित कार्रवाई के इनाम की भविष्यवाणी करना है, नीतिगत ढाल सीधे कार्रवाई की …

1
DQN को दो अलग-अलग नेटवर्क की आवश्यकता क्यों है?
मैं DQN के इस कार्यान्वयन के माध्यम से जा रहा था और मैं देखता हूं कि 124 और 125 दो अलग-अलग क्यू नेटवर्क को आरंभीकृत किया गया है। मेरी समझ से, मुझे लगता है कि एक नेटवर्क उपयुक्त कार्रवाई की भविष्यवाणी करता है और दूसरा नेटवर्क बेलमैन त्रुटि खोजने के …

2
फ़ंक्शन सन्निकटन का उपयोग करते समय क्यू-लर्निंग अभिसरण क्यों नहीं करता है?
सारणीबद्ध क्यू-लर्निंग एल्गोरिदम को इष्टतम खोजने की गारंटी है क्यूक्यूQ समारोह, Q*Q*Q^*, बशर्ते कि सीखने की दर के बारे में निम्नलिखित स्थितियां ( रॉबिंस-मोनरो स्थितियां ) संतुष्ट हों Σटीαटी( एस , एक ) = ∞∑टीαटी(रों,ए)=∞\sum_{t} \alpha_t(s, a) = \infty Σटीα2टी(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty कहाँ पे αt(s,a)αt(s,a)\alpha_t(s, a) इसका मतलब …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.