2
फ़ंक्शन सन्निकटन का उपयोग करते समय क्यू-लर्निंग अभिसरण क्यों नहीं करता है?
सारणीबद्ध क्यू-लर्निंग एल्गोरिदम को इष्टतम खोजने की गारंटी है क्यूक्यूQ समारोह, Q*Q*Q^*, बशर्ते कि सीखने की दर के बारे में निम्नलिखित स्थितियां ( रॉबिंस-मोनरो स्थितियां ) संतुष्ट हों Σटीαटी( एस , एक ) = ∞∑टीαटी(रों,ए)=∞\sum_{t} \alpha_t(s, a) = \infty Σटीα2टी(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty कहाँ पे αt(s,a)αt(s,a)\alpha_t(s, a) इसका मतलब …