कृत्रिम होशियारी q-learning

1

क्यू-लर्निंग और पॉलिसी ग्रेडिएंट विधियों के बीच क्या संबंध है?

जहां तक मैं समझता हूं, Q- लर्निंग और पॉलिसी ग्रेडिएंट (PG) RL समस्याओं को हल करने के लिए उपयोग किए जाने वाले दो प्रमुख दृष्टिकोण हैं। जबकि क्यू-लर्निंग का लक्ष्य एक निश्चित राज्य में किए गए एक निश्चित कार्रवाई के इनाम की भविष्यवाणी करना है, नीतिगत ढाल सीधे कार्रवाई की …

21 reinforcement-learning q-learning policy-gradients comparison

1

DQN को दो अलग-अलग नेटवर्क की आवश्यकता क्यों है?

मैं DQN के इस कार्यान्वयन के माध्यम से जा रहा था और मैं देखता हूं कि 124 और 125 दो अलग-अलग क्यू नेटवर्क को आरंभीकृत किया गया है। मेरी समझ से, मुझे लगता है कि एक नेटवर्क उपयुक्त कार्रवाई की भविष्यवाणी करता है और दूसरा नेटवर्क बेलमैन त्रुटि खोजने के …

12 reinforcement-learning q-learning dqn

2

फ़ंक्शन सन्निकटन का उपयोग करते समय क्यू-लर्निंग अभिसरण क्यों नहीं करता है?

सारणीबद्ध क्यू-लर्निंग एल्गोरिदम को इष्टतम खोजने की गारंटी है क्यूक्यूQ समारोह, Q*Q*Q^*, बशर्ते कि सीखने की दर के बारे में निम्नलिखित स्थितियां ( रॉबिंस-मोनरो स्थितियां ) संतुष्ट हों Σटीαटी( एस , एक ) = ∞∑टीαटी(रों,ए)=∞\sum_{t} \alpha_t(s, a) = \infty Σटीα2टी(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty कहाँ पे αt(s,a)αt(s,a)\alpha_t(s, a) इसका मतलब …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

q-learning पर टैग किए गए जवाब