आपके पास यह सही है, फ़ंक्शन आपको एक राज्य का मूल्य देता है , और आपको एक राज्य में एक कार्रवाई का मूल्य देता है (दिए गए नीति )। मुझे क्यू-लर्निंग की स्पष्ट व्याख्या मिली और यह टॉम मिशेल की पुस्तक "मशीन लर्निंग" (1997), ch में कैसे काम करता है। 13, जो डाउनलोड करने योग्य है। को एक अनंत श्रृंखला के योग के रूप में परिभाषित किया गया है, लेकिन यह यहां महत्वपूर्ण नहीं है। क्या मायने रखता है फ़ंक्शन के रूप में परिभाषित किया गया हैवीक्यूπवीक्यू
क्यू ( रों , एक ) = आर ( रों , एक ) + γवी*( δ( एस , एक ) )
क्यू वी * ( रों ) = अधिकतम एक ' क्यू ( रों , एक ' ) क्यू वी * क्यू ( रों , एक ) = आर ( रों , एक ) + γ अधिकतम
जहां V * एक राज्य का सबसे अच्छा मूल्य है यदि आप एक इष्टतम नीति का पालन कर सकते हैं जो आप नहीं करते हैं 'पता नहीं। हालाँकि, संदर्भ में इसका अच्छा लक्षण वर्णन है को
कम्प्यूट करने के लिए को देने के लिए पहले समीकरण में को
बदलकर किया जाता हैक्यू
वी*( s ) = अधिकतमए'क्यू ( एस , ए')
क्यूवी*क्यू ( रों , एक ) = आर ( रों , एक ) + γअधिकतमए'क्यू ( δ)( एस , एक ) , एक')
यह पहली बार में एक अजीब पुनरावृत्ति लग सकता है क्योंकि इसकी स्थिति एक उत्तराधिकारी राज्य के सर्वोत्तम क्यू मूल्य के संदर्भ में वर्तमान स्थिति में एक कार्रवाई के क्यू मूल्य को व्यक्त करती है , लेकिन यह समझ में आता है जब आप बैकअप प्रक्रिया का उपयोग कैसे करते हैं: अन्वेषण प्रक्रिया तब रुकती है जब यह एक लक्ष्य स्थिति तक पहुँच जाता है और इनाम को इकट्ठा करता है, जो कि अंतिम संक्रमण का क्यू मूल्य बन जाता है। अब एक बाद के प्रशिक्षण प्रकरण में, जब अन्वेषण प्रक्रिया उस पूर्ववर्ती स्थिति तक पहुंच जाती है, तो पूर्ववर्ती राज्य के वर्तमान क्यू मान को अद्यतन करने के लिए बैकअप प्रक्रिया उपरोक्त समानता का उपयोग करती है। अगली बार इसकेपूर्ववर्ती का दौरा किया जाता है कि राज्य का क्यू मूल्य अपडेट हो जाता है, और इसलिए लाइन के पीछे (मिशेल की पुस्तक सभी संगणनाओं को संग्रहीत करके और बाद में उन्हें फिर से पढ़कर) ऐसा करने का एक अधिक कुशल तरीका बताती है। बशर्ते हर राज्य का अनंत बार दौरा किया जाए, यह प्रक्रिया अंततः इष्टतम क्यू की गणना करती है
कभी-कभी आप एक लर्निंग रेट देखेंगे जो वास्तव में क्यू को अपडेट करने के लिए लागू होता है:
अब नोटिस कि क्यू मूल्य के लिए अद्यतन वर्तमान क्यू मूल्य पर निर्भर करता है । मिशेल की पुस्तक यह भी बताती है कि ऐसा क्यों है और आपको आवश्यकता क्यों है : इसकी स्टोकैस्टिक एमडीपी के लिए। बिना , हर बार एक राज्य, एक्शन जोड़ी का प्रयास किया गया था कि एक अलग इनाम होगा ताकि क्यू ^ फ़ंक्शन सभी जगह पर उछल जाए और अभिसरण न हो। वहाँ है ताकि नए ज्ञान केवल भाग में स्वीकार किए जाते हैं।αQ(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
ααααउच्च सेट किया गया है ताकि Q का वर्तमान (अधिकतर यादृच्छिक मान) कम प्रभावशाली हो। प्रशिक्षण की प्रगति के रूप में को कम किया जाता है, ताकि नए अपडेट में कम और कम प्रभाव हो, और अब क्यू सीखना अभिसरण करता हैα