नीति पुनरावृत्ति एल्गोरिथ्म इष्टतम नीति और मूल्य फ़ंक्शन में क्यों परिवर्तित होता है?


10

मैं सुदृढीकरण सीखने पर एंड्रयू एनजी के व्याख्यान नोट्स पढ़ रहा था , और मैं यह समझने की कोशिश कर रहा था कि नीति पुनरावृत्ति इष्टतम मान फ़ंक्शन और इष्टतम नीति क्यों परिवर्तित हुई ।Vπ

याद रखें नीति पुनरावृत्ति है:

Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxaAsPsa(s)V(s)}

ऐसा क्यों है कि एक लालची-एल्गोरिथ्म इष्टतम नीति और इष्टतम मूल्य फ़ंक्शन की ओर जाता है? (मुझे पता है कि लालची एल्गोरिदम हमेशा इसकी गारंटी नहीं देते हैं, या स्थानीय ऑप्टिमा में फंस सकते हैं, इसलिए मैं सिर्फ एल्गोरिदम की इसकी इष्टतमता के लिए एक प्रमाण देखना चाहता था)।

इसके अलावा, यह मुझे लगता है कि नीति पुनरावृत्ति क्लस्टरिंग या ढाल वंश के अनुरूप है। क्लस्टरिंग के लिए, क्योंकि मापदंडों की वर्तमान सेटिंग के साथ, हम अनुकूलन करते हैं। ग्रेडिएंट डिसेंट के समान है क्योंकि यह केवल कुछ फ़ंक्शन चुनता है जो कुछ फ़ंक्शन को बढ़ाता है। ये दो विधियां हमेशा अधिकतम मैक्सिमा में परिवर्तित नहीं होती हैं, और मैं यह समझने की कोशिश कर रहा था कि यह एल्गोरिथम मेरे द्वारा बताए गए पिछले संस्करणों से कैसे अलग था।


ये मेरे अब तक के विचार हैं:

यह कहें कि हम कुछ पॉलिसी शुरू करते हैं , फिर पहले कदम के बाद, उस निश्चित पॉलिसी के लिए हमारे पास है:π1

Vπ1(s)=R(s)+γsPsπ1(s)(s)Vπ1(s)

V(1):=Vπ1(s)

जहां V ^ {(1)} पहली पुनरावृत्ति के लिए मान फ़ंक्शन है। फिर दूसरे चरण के बाद हम के मान को बढ़ाने के लिए कुछ नई नीति चुनते हैं । अब, नई नीति , यदि हम एल्गोरिथ्म का दूसरा चरण करते हैं, तो निम्नलिखित असमानता सही है:π2Vπ1(s)π2

आर(रों)+γΣरों'पीरोंπ1(रों)(रों')वीπ1(रों')आर(रों)+γΣरों'पीरोंπ2(रों)(रों')वीπ1(रों')

क्योंकि हम पिछले चरण में मान फ़ंक्शन को बढ़ाने के लिए दूसरे चरण में चुनते हैं (यानी सुधार करने के लिए । अब तक, यह स्पष्ट है कि को केवल V ^ {(1)} को बढ़ा सकता है। क्योंकि हम कैसे चुनते हैं । हालांकि, मेरा भ्रम दोहराए गए कदम में आता है क्योंकि एक बार जब हम दोहराते हैं और चरण 1 पर वापस जाते हैं, तो हम वास्तव में चीजों को पूरी तरह से बदल देते हैं क्योंकि हम नई नीति लिए फिर से गणना । जो देता है:π2वी(1)π2π2वी2π2

वीπ2(रों)=आर(रों)+γΣरों'पीरोंπ2(रों)(रों')वीπ2(रों')

लेकिन यह नहीं है:

वीπ1(रों)=आर(रों)+γΣरों'पीरोंπ2(रों)(रों')वीπ1(रों')

जो एक समस्या लगती है क्योंकि को सुधार करने के लिए चुना गया था , और इस नए । असल में समस्या यह है कि है की गारंटी देता है सुधार करने के लिए ऐसा करने से बजाय की मूल्य समारोह है जब । लेकिन दोहराने के चरण में हम को बदल देते हैं , लेकिन मैं यह नहीं देखता कि यह गारंटी कैसे दी जाती है कि मान फ़ंक्शन प्रत्येक पुनरावृत्ति में में सुधार करता है क्योंकि की गणना मूल्य फ़ंक्शन को बेहतर बनाने के लिए की थी मान फ़ंक्शनπ2वी(1)वीπ2पीमैं2आर(रों)+γΣरों'पीरोंπ1(रों)(रों')वीπ1(रों')π2पीमैं1वीπ1वीπ1वीπ2π2वीπ1, लेकिन चरण 1 परिवर्तन के लिए (जो बुरा है, क्योंकि मैं केवल पिछले मान समारोह हम था सुधार)।वीπ1वीπ2π2


1
बस एक नोट: लालची का मतलब यह नहीं है कि एक एल्गोरिथ्म सामान्य रूप से एक इष्टतम समाधान नहीं ढूंढेगा।
रेगेंशिन

1
मूल्य पुनरावृत्ति एक गतिशील प्रोग्रामिंग एल्गोरिथ्म है, एक लालची के बजाय। दोनों कुछ समानताएं साझा करते हैं, लेकिन मतभेद हैं। पर एक नजर डालें stackoverflow.com/questions/13713572/...
फ्रेंकोइस्र

@francoisr किसी ने भी मुझे कभी नहीं बताया। शायद यही कारण है कि यह (अनावश्यक रूप से) मेरे लिए रहस्यमय था। मैं डीपी को अच्छी तरह से जानता हूं। हालांकि धन्यवाद! :)
पिनोच्चियो

जवाबों:


4

मुझे लगता है कि आप जो हिस्सा याद कर रहे हैं, वह यह है कि को उसी कारण के लिए गारंटी दी जाती है, जिस पर हम ऑर्डर कर सकते हैं । यह अनिवार्य रूप से एक नीति की परिभाषा दूसरे की तुलना में बेहतर है - कि इसका मूल्य कार्य सभी राज्यों में अधिक या बराबर है। आपने अधिकतम क्रियाओं का चयन करके इसकी गारंटी दी है - कोई भी राज्य का मूल्य संभवतः पहले की तुलना में खराब नहीं हो सकता है, और यदि बेहतर कार्रवाई को चुनने के लिए सिर्फ एक कार्रवाई विकल्प बदल गया है, तो आप पहले से ही जानते हैं (लेकिन गणना नहीं की जा सकती है) उस स्थिति के लिए जा रहा है, जो ।वीπ2वीπ1π2π1वीπ2(रों)वीπ1(रों)

जब हम उत्पन्न करने के लिए अधिकतम परिणाम , तो हम नहीं जानते कि नया किसी भी राज्य के लिए क्या होने वाला है, लेकिन हम जानते हैं कि ।π2वीπ2(रों)रों:वीπ2(रों)वीπ1(रों)

इसलिए, नई नीति के लिए लूप के माध्यम से वापस जाना और गणना करना पहले की तुलना में समान या उच्च मान रखने की गारंटी है, और जब नीति को फिर से अपडेट करने की बात आती है, तो ।वीπ2π3π2π1


4

सबसे पहले देखते हैं कि पॉलिसी Iteration Algorithm काम क्यों करता है। इसके दो चरण हैं।

नीति मूल्यांकन चरण:

vn=आरn+γपीnvn रैखिक समीकरणों की प्रणाली का सामान्य वेक्टर रूप है।

यहां, शब्द संक्रमण मैट्रिक्स की तत्काल पुरस्कार और संबंधित पंक्तियाँ हैं।आरn,पीn

ये शर्तें नीति पर निर्भर हैंΠn

समीकरणों के उपरोक्त सिस्टम को हल करके हम के मान पा सकते हैंvn

नीति सुधार कदम:

मान लें कि हम एक नई नीति खोजने में सफल रहे कि इस तरह केΠn+1

आरn+1+γपीn+1vnआरn+γपीnvnआरn+1[मैं-γपीn+1]vnयह eqn है। 1

अब, नई नीति आधार पर , हम , मान लें कि यह समीकरण 2 है।Πn+1vn+1=आरn+1+γपीn+1vn+1

हम दिखाने जा रहे हैं कि ;vn+1vn

अर्थात सभी राज्यों के लिए अनिवार्य रूप से, नई चुनी गई नीति पिछली नीति की तुलना में बेहतर मूल्य देती है।Πn+1Πn

सबूत:

समीकरण 2 से, हमारे पास है,

[मैं-γपीn+1]vn+1=आरn+1

से, , हमारे पास है1और2

vn+1vn

अनिवार्य रूप से, मान प्रत्येक पुनरावृत्ति के साथ एक-दूसरे के साथ बढ़ रहे हैं।

यह समझना महत्वपूर्ण है कि नीतिगत हस्तक्षेप स्थानीय अधिकतम पर क्यों नहीं अटक जाएगा।

एक नीति एक राज्य कार्रवाई अंतरिक्ष के अलावा कुछ भी नहीं है।

प्रत्येक नीति पुनरावृत्ति कदम पर, हम कम से कम एक राज्य-क्रिया खोजने की कोशिश करते हैं जो और बीच भिन्न होती है और देखें कि क्या । केवल अगर हालत संतुष्ट है तो हम रैखिक समीकरणों की नई प्रणाली के समाधान की गणना करेंगे।Πn+1Πnआरn+1+γपीn+1vnआरn+γपीnvn

मान लें कि और क्रमशः वैश्विक और स्थानीय इष्टतम हैं।Π*Π#

प्रत्यारोपण,v*v#

मान लें कि एल्गोरिथ्म स्थानीय इष्टतम पर अटक गया है।

यदि यह मामला है, तो नीति सुधार कदम स्थानीय इष्टतम स्थिति-एक्शन स्पेस पर नहीं रुकेगा , क्योंकि में कम से कम एक राज्य-कार्रवाई मौजूद है, जो से अलग है और पैदावार के एक उच्च मूल्य की तुलनाΠ#Π*Π#v*v#

या, दूसरे शब्दों में,

[मैं-γपी*]v*[मैं-γपी*]v#

आर*[मैं-γपी*]v#

आर*+γपी*v#v#

आर*+γपी*v#आर#+γपी#v#

इसलिए, नीति का चलना स्थानीय इष्टतम पर नहीं रुकता है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.