हमेशा कम से कम एक नीति क्यों होती है जो अन्य सभी नीतियों से बेहतर या समान होती है?


15

सुदृढीकरण सीखना: एक परिचय। दूसरा संस्करण, प्रगति में , रिचर्ड एस। सटन और एंड्रयू जी। बार्टो (सी) 2012, पीपी 67-68।

एक सुदृढीकरण सीखने के कार्य को हल करने का मतलब है, मोटे तौर पर, एक ऐसी नीति खोजना जो लंबे समय से अधिक इनाम प्राप्त करता है। परिमित एमडीपी के लिए, हम निम्नलिखित तरीके से एक इष्टतम नीति को ठीक से परिभाषित कर सकते हैं। मान फ़ंक्शंस नीतियों पर आंशिक आदेश को परिभाषित करते हैं। एक नीति से या एक नीति के बराबर बेहतर होने की परिभाषित किया गया है अगर इसके प्रत्याशित प्रतिफल से अधिक है या के बराबर , सभी राज्यों के लिए। दूसरे शब्दों में, अगर और केवल अगर , सभी । हमेशा कम से कम एक नीति होती है जो अन्य सभी नीतियों से बेहतर या समान होती है। यह एक इष्टतम नीति है।πππππvπ(s)vπ(s)sS

हमेशा कम से कम एक नीति क्यों होती है जो अन्य सभी नीतियों से बेहतर या समान होती है?


पुटरमैन द्वारा "मार्कोव डिसीजन प्रोसेस" के अध्याय 6.2 में एक बहुत विस्तृत प्रमाण (जो बानाच के निश्चित बिंदु प्रमेय का उपयोग करता है) दिखाई देता है।
जोग

जवाबों:


3

उद्धृत भाग के पिछले हिस्से में, वही पैराग्राफ वास्तव में आपको बताता है कि यह नीति क्या है: यह वह है जो हर राज्य में सबसे अच्छी कार्रवाई करता है। एक एमडीपी में, हम एक राज्य में जो कार्रवाई करते हैं, वह दूसरों में किए गए कार्यों के लिए पुरस्कार को प्रभावित नहीं करती है, इसलिए हम केवल नीति राज्य-दर-राज्य को अधिकतम कर सकते हैं।


क्या यह जवाब पूरी तरह से गलत नहीं है? आप यह कैसे कह सकते हैं कि राज्य द्वारा नीतिगत स्थिति का अनुकूलन इष्टतम नीति की ओर जाता है। मैं पर राज्य का अनुकूलन तो और यह मेरे लेता और फिर कम से अनुकूलन के एक इष्टतम मूल्य कार्य करने के लिए सुराग लेकिन वहाँ एक और नीति, जिसमें है को suboptimally सुराग और का इष्टतम मान फ़ंक्शन । आप इस तरह के एक सरसरी विश्लेषण द्वारा इसे कैसे नियंत्रित कर सकते हैं? एस टी + 1 एस टी + 1 वी टी + 1 एस टी एस एल एस एल वी टी + 1StSt+1St+1Vt+1StSlSlVt+1
मिलोमोइन्डरबिंदर

@MiloMinderbinder पर इष्टतम नीति तो चयन करने के लिए है , तो का मान के मूल्य से अधिक है । S t + 1 S t + 1 S lStSt+1St+1Sl
डॉन रेबा

मेरी गलती। टाइपो ने सही किया: 'क्या यह जवाब पूरी तरह से गलत नहीं है? आप यह कैसे कह सकते हैं कि राज्य द्वारा नीतिगत स्थिति का अनुकूलन इष्टतम नीति की ओर जाता है? अगर मैं पर राज्य का अनुकूलन और यह मेरे लिए ले जाता है और फिर कम से अनुकूलन के एक इष्टतम मूल्य कार्य करने के लिए सुराग के लेकिन वहाँ एक और है ऐसी नीति जिसमें यद्यपि लिए उप-मुख्य रूप से जाता है और इसलिए का मान फ़ंक्शन लेकिन का मान फ़ंक्शन इसके अंतर्गत उच्च है राज्य द्वारा राज्य का अनुकूलन करके मिली नीति के तहत नीति। यह आपके द्वारा कैसे अपमानित किया गया है? 'S t + 1 S t + 1 V t + 2 S t + 2 S t S l + 1 S t + 1 V l + 1 S t + 2StSt+1St+1Vt+2St+2StSl+1St+1Vl+1St+2
मिलोमिंदरबिंदर

मुझे लगता है कि की परिभाषा इसे पहले स्थान पर होने से रोक देगी, क्योंकि भविष्य के रिटर्न के लिए भी इसका हिसाब होना चाहिए। V
फ्लाइंग_बाना

सवाल यह होगा: मौजूद क्यों है ? आप Banach Fixed Point Theorem :-)q
Fabian Werner

10

एक इष्टतम नीति का अस्तित्व स्पष्ट नहीं है। यह देखने के लिए, ध्यान दें कि मान फ़ंक्शन नीतियों के स्थान पर केवल आंशिक आदेश प्रदान करता है। इसका मतलब है की:

ππvπ(s)vπ(s),sS

चूंकि यह केवल एक आंशिक आदेश है, इसलिए ऐसा मामला हो सकता है जहां दो नीतियां, और , तुलनीय न हों। दूसरे शब्दों में, राज्य स्थान, और ऐसे हैं:π 2 S 1 S 2π1π2S1S2

vπ(s)vπ(s),sS1

vπ(s)vπ(s),sS2

इस मामले में, हम यह नहीं कह सकते कि एक नीति दूसरे से बेहतर है। लेकिन अगर हम सीमित मूल्य के कार्यों के साथ परिमित एमडीपी के साथ काम कर रहे हैं, तो ऐसा परिदृश्य कभी नहीं होता है। वास्तव में एक इष्टतम मूल्य फ़ंक्शन है, हालांकि कई इष्टतम नीतियां हो सकती हैं।

इसके एक प्रमाण के लिए, आपको Banach Fixed Point प्रमेय को समझने की आवश्यकता है। एक विस्तृत विश्लेषण के लिए, कृपया देखें


8

स्थापना

हम इसकी सेटिंग पर विचार कर रहे हैं:

  • असतत कर्म
  • असतत अवस्था
  • बँटे हुए पुरस्कार
  • स्थिर नीति
  • अनंत क्षितिज

इष्टतम नीति के रूप में परिभाषित किया गया है: और इष्टतम मूल्य समारोह है: ऐसी नीतियों का एक सेट हो सकता है जो अधिकतम प्राप्त करते हैं। लेकिन केवल एक इष्टतम मान फ़ंक्शन है:

(1)πargmaxπVπ(s),sS
(2)V=maxπVπ(s),sS
(3)V=Vπ

प्रश्न

यह साबित करने के लिए कि कम से कम एक जो (1) एक साथ सभी संतुष्ट है ?πsS

प्रमाण की रूपरेखा

  1. इष्टतम मान फ़ंक्शन के अस्थायी सरोगेट परिभाषा के रूप में उपयोग किए जाने वाले इष्टतम समीकरण का निर्माण करें , जिसे हम चरण 2 में साबित करेंगे कि यह Eq के माध्यम से परिभाषा के बराबर है। (2)।

    (4)V(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
  2. Eq (4) और Eq (2) के माध्यम से इष्टतम मान फ़ंक्शन को परिभाषित करने की समानता को प्राप्त करें।

    (वास्तव में ध्यान दें कि हमें केवल प्रमाण में आवश्यक दिशा की आवश्यकता है, क्योंकि दक्षता स्पष्ट है क्योंकि हमने Eq से Eq (4) का निर्माण किया है। (2)।

  3. सिद्ध है कि Eq के लिए एक अनूठा समाधान है। (4)।

  4. चरण 2 से, हम जानते हैं कि चरण 3 में प्राप्त समाधान भी Eq (2) का समाधान है, इसलिए यह एक इष्टतम मूल्य फ़ंक्शन है।

  5. एक इष्टतम मूल्य फ़ंक्शन से, हम प्रत्येक राज्य के लिए Eq। (4) में अधिकतम कार्रवाई का चयन करके एक इष्टतम नीति को पुनर्प्राप्त कर सकते हैं।

चरणों का विवरण

1

चूँकि , हमारे पास । और यदि कोई ऐसा है कि , हम कर सकते हैं अधिकतम करके एक बेहतर नीति चुनें से अधिक ।V(s)=Vπ(s)=Ea[Qπ(s,a)]Vπ(s)maxaAQπ(s,a)s~VπmaxaAQπ(s,a)Q(s,a)=Qπ(s,a)a

2

(=>)

चरण 1 से अनुसरण करता है।

(<=)

अर्थात यदि , संतुष्ट करता है , फिर ।V~V~(s)=maxaA[R(s,a)+γsST(s,a,s)V~(s)]V~(s)=V(s)=maxπVπ(s),sS

इष्टतम Bellman ऑपरेटर को रूप में परिभाषित करें इसलिए हमारा लक्ष्य यह साबित करना है कि अगर , तो । हमने पुटरमैन [1] के बाद, दो परिणामों को मिलाकर इसे दिखाया :

(5)TV(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
V~=TV~V~=V

a) यदि , तो ।V~TV~V~V

b) यदि , तो ।V~TV~V~V

प्रमाण:

ए)

किसी भी , यहाँ निर्णय नियम (विशिष्ट समय पर कार्रवाई प्रोफ़ाइल) है, तत्काल इनाम का सदिश प्रतिनिधित्व है से प्रेरित और संक्रमण मैट्रिक्स है जो से प्रेरित है ।π=(d1,d2,...)

V~TV~=maxd[Rd+γPdV~]Rd1+γPd1V~
dRddPdd

प्रेरण द्वारा, किसी भी , जहां , तहत -step ट्रांस्फ़ॉर्म मैट्रिक्स का प्रतिनिधित्व करता है ।n

V~Rd1+i=1n1γiPπiRdi+1+γnPπnV~
Pπjjπ

चूँकि हमारे पास इसलिए हमारे पास । और जब से यह किसी भी , हम उस b) का निष्कर्ष निकालते हैं।

Vπ=Rd1+i=1γiPπiRdi+1
V~VπγnPπnV~i=nγiPπiRdi+10 as n
V~Vππ
V~maxπVπ=V

चरण 1 से अनुसरण करता है।

3

इष्टतम बेलमैन ऑपरेटर मानदंड में एक संकुचन है, cf. [2]।L

प्रमाण: किसी भी , जहां (*) में हमने इस तथ्य का उपयोग किया है कि s

|TV1(s)TV2(s)|=|maxaA[R(s,a)+γsST(s,a,s)V1(s)]maxaA[R(s,a)+γsST(s,a,s)V(s)]|()|maxaA[γsST(s,a,s)(V1(s)V2(s))]|γV1V2
maxaf(a)maxag(a)maxa[f(a)g(a)]

इस प्रकार Banach द्वारा निर्धारित बिंदु प्रमेय यह इस प्रकार है कि में एक विशिष्ट निश्चित बिंदु है।T

संदर्भ

[१] पुटरमैन, मार्टिन एल .. "मार्कोव निर्णय प्रक्रिया: असतत स्टोचस्टिक डायनामिक प्रोग्रामिंग।" (2016)।

[२] ए। लाजरिक http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.