Q फ़ंक्शन क्या है और सुदृढीकरण सीखने में V फ़ंक्शन क्या है?


30

यह मुझे लगता है कि फ़ंक्शन को फ़ंक्शन द्वारा आसानी से व्यक्त किया जा सकता है और इस प्रकार फ़ंक्शन मेरे लिए बहुत ही अच्छा लगता है। हालांकि, मैं सुदृढीकरण सीखने के लिए नया हूं इसलिए मुझे लगता है कि मुझे कुछ गलत लगा।VQV

परिभाषाएं

Q- और V- अधिगम मार्कोव निर्णय प्रक्रियाओं के संदर्भ में हैं । एक एमडीपी एक 5-ट्यूपल है(S,A,P,R,γ)

  • S राज्यों का एक समूह है (आमतौर पर परिमित)
  • A क्रियाओं का एक समूह है (आमतौर पर परिमित)
  • P(s,s,a)=P(st+1=s|st=s,at=a) एक्शन के साथ स्टेट से स्टेट में जाने की संभावना ।ssa
  • R(s,s,a)R एक्शन के साथ राज्य से राज्य जाने के बाद तत्काल इनाम । (यह मुझे लगता है कि आमतौर पर केवल मामलों )।ssas
  • γ[0,1] को डिस्काउंट फैक्टर कहा जाता है और यह निर्धारित किया जाता है कि कोई तत्काल पुरस्कार ( ), कुल इनाम ( ) या कुछ ट्रेड-ऑफ पर केंद्रित है।γ=0γ=1

रेनफोर्समेंट लर्निंग के अनुसार एक पॉलिसीπ : सटन और बार्टो द्वारा एक परिचय एक फ़ंक्शन (यह संभावित हो सकता है)।π:SA

के अनुसार मारियो मार्टिंस स्लाइड , समारोह है और क्यू समारोह है V

Vπ(s)=Eπ{Rt|st=s}=Eπ{k=0γkrt+k+1|st=s}
Qπ(s,a)=Eπ{Rt|st=s,at=a}=Eπ{k=0γkrt+k+1|st=s,at=a}

मेरे विचार

समारोह राज्यों क्या उम्मीद कुल मूल्य (इनाम नहीं है!) एक राज्य का पॉलिसी के तहत है।एस πVsπ

समारोह राज्यों क्या एक राज्य का मान और एक कार्य पॉलिसी के तहत है।एस एक πQsaπ

इसका मतलब है,

Qπ(s,π(s))=Vπ(s)

सही? तो हमारे पास मूल्य समारोह क्यों है? (मुझे लगता है कि मैंने कुछ मिलाया है)

जवाबों:


15

क्यू-मान कार्यों को स्पष्ट करने का एक शानदार तरीका है ताकि आप उन समस्याओं से निपट सकें जहां संक्रमण फ़ंक्शन उपलब्ध नहीं है (मॉडल-मुक्त)। हालांकि, जब आपका एक्शन-स्पेस बड़ा होता है, तो चीजें इतनी अच्छी नहीं होती हैं और क्यू-वैल्यू इतनी सुविधाजनक नहीं होती हैं। बड़ी संख्या में क्रिया या यहां तक ​​कि निरंतर क्रिया-स्थान के बारे में सोचें।

नमूने के दृष्टिकोण से, की आयामीता से अधिक है, इसलिए इसे तुलना में पर्याप्त नमूने प्राप्त करने के लिए कठिन हो सकता है । यदि आपके पास संक्रमण फ़ंक्शन तक पहुंच है, तो कभी-कभी अच्छा होता है।Q(s,a)V(s)(s,a)(s)V

ऐसे अन्य उपयोग भी हैं जहां दोनों संयुक्त हैं। उदाहरण के लिए, लाभ फ़ंक्शन जहां । यदि आप रुचि रखते हैं, तो आप यहाँ लाभ कार्यों का उपयोग करके एक हालिया उदाहरण पा सकते हैं:A(s,a)=Q(s,a)V(s)

डीप रिइनफोर्समेंट लर्निंग के लिए ड्यूलिंग नेटवर्क आर्किटेक्चर

ज़ियु वांग, टॉम शाहुल, माटेओ हेसल, हादो वैन हैसेल्ट, मार्क लैन्कोट और नंदो डी फ्रीटास द्वारा।


19

Vπ(s) एमडीपी (मार्कोव निर्णय प्रक्रिया) का राज्य-मूल्य समारोह है। यह उम्मीद की वापसी राज्य से शुरू है निम्नलिखित नीति ।sπ

अभिव्यक्ति में

Vπ(s)=Eπ{Gt|st=s}

Gt समय कदम से कुल रियायती इनाम है , के रूप में करने का विरोध किया जो एक तत्काल वापसी है। यहां आप पॉलिसी अनुसार सभी कार्यों की अपेक्षा कर रहे हैं ।tRtπ

Qπ(s,a)रों π एक एक्शन-वैल्यू फ़ंक्शन है। यह राज्य से शुरू प्रत्याशित प्रतिफल है , नीति का पालन , कार्रवाई करने । यह विशेष राज्य पर विशेष कार्रवाई पर ध्यान केंद्रित कर रहा है।sπa

Qπ(s,a)=Eπ{Gt|st=s,at=a}

के बीच के रिश्ते और (है कि राज्य में होने का मूल्य) हैQπVπ

Vπ(s)=aAπ(a|s)Qπ(a,s)

आप हर एक्शन-वैल्यू को उस एक्शन लेने की संभावना से गुणा करते हैं (पॉलिसी )।π(a|s)

यदि आप ग्रिड वर्ल्ड उदाहरण के बारे में सोचते हैं, तो आप (ऊपर / नीचे / दाएं / बाएं) के एक कदम आगे (ऊपर / नीचे / दाएं / बाएं) की संभावना को गुणा करते हैं।


5
यह सबसे संक्षिप्त जवाब है।
ब्रेट

मेरे पास ऐसा स्रोत है जो बताता है कि । इस समीकरण को आप अपने उत्तर, कैसे संबंधित करते हैं? अपने समीकरण में, आप मानों की भारित राशि के संदर्भ में को परिभाषित कर रहे हैं। यह मेरे पास मौजूद परिभाषा से अलग है, जो को उच्चतम रूप में परिभाषित करता है । वी π ( रों ) = Σ एक एक π ( एक | s ) * क्यू π ( एक , एस ) वी क्यू वी क्यूVπ(s)=maxaAQπ(s,a)Vπ(s)=aAπ(as)Qπ(a,s)VQVQ
nbro

@ मैं मानता हूं कि यह इस बात पर निर्भर करता है कि आप किस तरह की नीति अपना रहे हैं। शुद्ध लालची नीति में आप सही हैं। लेकिन अगर यह एक अधिक खोजपूर्ण नीति थी, जिसे एक कार्रवाई का फैसला करने के लिए बनाया गया था, तो उपरोक्त सही होगा
डेल्टस्केल्टा

7

आपके पास यह सही है, फ़ंक्शन आपको एक राज्य का मूल्य देता है , और आपको एक राज्य में एक कार्रवाई का मूल्य देता है (दिए गए नीति )। मुझे क्यू-लर्निंग की स्पष्ट व्याख्या मिली और यह टॉम मिशेल की पुस्तक "मशीन लर्निंग" (1997), ch में कैसे काम करता है। 13, जो डाउनलोड करने योग्य है। को एक अनंत श्रृंखला के योग के रूप में परिभाषित किया गया है, लेकिन यह यहां महत्वपूर्ण नहीं है। क्या मायने रखता है फ़ंक्शन के रूप में परिभाषित किया गया हैVQπVQ

Q(s,a)=r(s,a)+γV(δ(s,a))
क्यू वी * ( रों ) = अधिकतम एक ' क्यू ( रों , एक ' ) क्यू वी * क्यू ( रों , एक ) = आर ( रों , एक ) + γ अधिकतम जहां V * एक राज्य का सबसे अच्छा मूल्य है यदि आप एक इष्टतम नीति का पालन कर सकते हैं जो आप नहीं करते हैं 'पता नहीं। हालाँकि, संदर्भ में इसका अच्छा लक्षण वर्णन है को कम्प्यूट करने के लिए को देने के लिए पहले समीकरण में को बदलकर किया जाता हैQ
V(s)=maxaQ(s,a)
QV
Q(s,a)=r(s,a)+γmaxaQ(δ(s,a),a)

यह पहली बार में एक अजीब पुनरावृत्ति लग सकता है क्योंकि इसकी स्थिति एक उत्तराधिकारी राज्य के सर्वोत्तम क्यू मूल्य के संदर्भ में वर्तमान स्थिति में एक कार्रवाई के क्यू मूल्य को व्यक्त करती है , लेकिन यह समझ में आता है जब आप बैकअप प्रक्रिया का उपयोग कैसे करते हैं: अन्वेषण प्रक्रिया तब रुकती है जब यह एक लक्ष्य स्थिति तक पहुँच जाता है और इनाम को इकट्ठा करता है, जो कि अंतिम संक्रमण का क्यू मूल्य बन जाता है। अब एक बाद के प्रशिक्षण प्रकरण में, जब अन्वेषण प्रक्रिया उस पूर्ववर्ती स्थिति तक पहुंच जाती है, तो पूर्ववर्ती राज्य के वर्तमान क्यू मान को अद्यतन करने के लिए बैकअप प्रक्रिया उपरोक्त समानता का उपयोग करती है। अगली बार इसकेपूर्ववर्ती का दौरा किया जाता है कि राज्य का क्यू मूल्य अपडेट हो जाता है, और इसलिए लाइन के पीछे (मिशेल की पुस्तक सभी संगणनाओं को संग्रहीत करके और बाद में उन्हें फिर से पढ़कर) ऐसा करने का एक अधिक कुशल तरीका बताती है। बशर्ते हर राज्य का अनंत बार दौरा किया जाए, यह प्रक्रिया अंततः इष्टतम क्यू की गणना करती है

कभी-कभी आप एक लर्निंग रेट देखेंगे जो वास्तव में क्यू को अपडेट करने के लिए लागू होता है: अब नोटिस कि क्यू मूल्य के लिए अद्यतन वर्तमान क्यू मूल्य पर निर्भर करता है । मिशेल की पुस्तक यह भी बताती है कि ऐसा क्यों है और आपको आवश्यकता क्यों है : इसकी स्टोकैस्टिक एमडीपी के लिए। बिना , हर बार एक राज्य, एक्शन जोड़ी का प्रयास किया गया था कि एक अलग इनाम होगा ताकि क्यू ^ फ़ंक्शन सभी जगह पर उछल जाए और अभिसरण न हो। वहाँ है ताकि नए ज्ञान केवल भाग में स्वीकार किए जाते हैं।α

Q(s,a)=(1α)Q(s,a)+α(r(s,a)+γmaxaQ(s,a))
=Q(s,a)+α(r(s,a)+γmaxaQ(s,a)Q(s,a))
ααααउच्च सेट किया गया है ताकि Q का वर्तमान (अधिकतर यादृच्छिक मान) कम प्रभावशाली हो। प्रशिक्षण की प्रगति के रूप में को कम किया जाता है, ताकि नए अपडेट में कम और कम प्रभाव हो, और अब क्यू सीखना अभिसरण करता हैα


0

यहाँ हारून के उत्तर में राज्य मूल्य और कार्रवाई मूल्य के बीच संबंधों का अधिक विस्तृत विवरण दिया गया है। आइए सबसे पहले नीति तहत मान फ़ंक्शन और क्रिया मान फ़ंक्शन की परिभाषाओं पर एक नज़र डालें : जहां समय पर वापसी । इन दो मूल्य कार्यों के बीच संबंध के रूप में व्युत्पन्न किया जा सकता है π

vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a]
Gt=k=0γkRt+k+1t
vπ(s)=E[Gt|St=s]=gtp(gt|St=s)gt=gtap(gt,a|St=s)gt=ap(a|St=s)gtp(gt|St=s,At=a)gt=ap(a|St=s)E[Gt|St=s,At=a]=ap(a|St=s)qπ(s,a)
उपरोक्त समीकरण महत्वपूर्ण है। यह सुदृढीकरण सीखने में दो मौलिक मूल्य कार्यों के बीच संबंध का वर्णन करता है। यह किसी भी नीति के लिए मान्य है। इसके अलावा, यदि हमारे पास नियतांक नीति है, तो । आशा है कि यह आपके लिए उपयोगी है। (बेलमैन इष्टतमता के बारे में अधिक देखने के लिए समीकरण https: //stats.stackexchange। vπ(रों)=क्षπ(रों,π(रों))vπ(s)=qπ(s,π(s)))


0

मान फ़ंक्शन उपयोगिता का एक सार सूत्रीकरण है। और क्यू-फ़ंक्शन का उपयोग क्यू-लर्निंग एल्गोरिदम के लिए किया जाता है।


इस प्रश्न के संदर्भ के लिए, और अलग-अलग हैं। क्यूVQ
सायनग तेये गोह
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.