deep-rl पर टैग किए गए जवाब

2
फ़ंक्शन सन्निकटन का उपयोग करते समय क्यू-लर्निंग अभिसरण क्यों नहीं करता है?
सारणीबद्ध क्यू-लर्निंग एल्गोरिदम को इष्टतम खोजने की गारंटी है क्यूक्यूQ समारोह, Q*Q*Q^*, बशर्ते कि सीखने की दर के बारे में निम्नलिखित स्थितियां ( रॉबिंस-मोनरो स्थितियां ) संतुष्ट हों Σटीαटी( एस , एक ) = ∞∑टीαटी(रों,ए)=∞\sum_{t} \alpha_t(s, a) = \infty Σटीα2टी(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty कहाँ पे αt(s,a)αt(s,a)\alpha_t(s, a) इसका मतलब …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.