कृत्रिम होशियारी deep-rl

फ़ंक्शन सन्निकटन का उपयोग करते समय क्यू-लर्निंग अभिसरण क्यों नहीं करता है?

सारणीबद्ध क्यू-लर्निंग एल्गोरिदम को इष्टतम खोजने की गारंटी है क्यूक्यूQ समारोह, Q*Q*Q^*, बशर्ते कि सीखने की दर के बारे में निम्नलिखित स्थितियां ( रॉबिंस-मोनरो स्थितियां ) संतुष्ट हों Σटीαटी( एस , एक ) = ∞∑टीαटी(रों,ए)=∞\sum_{t} \alpha_t(s, a) = \infty Σटीα2टी(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty कहाँ पे αt(s,a)αt(s,a)\alpha_t(s, a) इसका मतलब …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

deep-rl पर टैग किए गए जवाब