स्थापना
हम इसकी सेटिंग पर विचार कर रहे हैं:
- असतत कर्म
- असतत अवस्था
- बँटे हुए पुरस्कार
- स्थिर नीति
- अनंत क्षितिज
इष्टतम नीति के रूप में परिभाषित किया गया है:
और इष्टतम मूल्य समारोह है:
ऐसी नीतियों का एक सेट हो सकता है जो अधिकतम प्राप्त करते हैं। लेकिन केवल एक इष्टतम मान फ़ंक्शन है:
π∗∈argmaxπVπ(s),∀s∈S(1)
V∗=maxπVπ(s),∀s∈S(2)
V∗=Vπ∗(3)
प्रश्न
यह साबित करने के लिए कि कम से कम एक जो (1) एक साथ सभी संतुष्ट है ?π∗s∈S
प्रमाण की रूपरेखा
इष्टतम मान फ़ंक्शन के अस्थायी सरोगेट परिभाषा के रूप में उपयोग किए जाने वाले इष्टतम समीकरण का निर्माण करें , जिसे हम चरण 2 में साबित करेंगे कि यह Eq के माध्यम से परिभाषा के बराबर है। (2)।
V∗(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V∗(s′)](4)
Eq (4) और Eq (2) के माध्यम से इष्टतम मान फ़ंक्शन को परिभाषित करने की समानता को प्राप्त करें।
(वास्तव में ध्यान दें कि हमें केवल प्रमाण में आवश्यक दिशा की आवश्यकता है, क्योंकि दक्षता स्पष्ट है क्योंकि हमने Eq से Eq (4) का निर्माण किया है। (2)।
सिद्ध है कि Eq के लिए एक अनूठा समाधान है। (4)।
चरण 2 से, हम जानते हैं कि चरण 3 में प्राप्त समाधान भी Eq (2) का समाधान है, इसलिए यह एक इष्टतम मूल्य फ़ंक्शन है।
एक इष्टतम मूल्य फ़ंक्शन से, हम प्रत्येक राज्य के लिए Eq। (4) में अधिकतम कार्रवाई का चयन करके एक इष्टतम नीति को पुनर्प्राप्त कर सकते हैं।
चरणों का विवरण
1
चूँकि , हमारे पास । और यदि कोई ऐसा है कि , हम कर सकते हैं अधिकतम करके एक बेहतर नीति चुनें से अधिक ।V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2
(=>)
चरण 1 से अनुसरण करता है।
(<=)
अर्थात यदि , संतुष्ट करता है , फिर ।V~V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
इष्टतम Bellman ऑपरेटर को रूप में
परिभाषित करें
इसलिए हमारा लक्ष्य यह साबित करना है कि अगर , तो । हमने पुटरमैन [1] के बाद, दो परिणामों को मिलाकर इसे दिखाया :
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
V~=TV~V~=V∗
a) यदि , तो ।V~≥TV~V~≥V∗
b) यदि , तो ।V~≤TV~V~≤V∗
प्रमाण:
ए)
किसी भी ,
यहाँ निर्णय नियम (विशिष्ट समय पर कार्रवाई प्रोफ़ाइल) है, तत्काल इनाम का सदिश प्रतिनिधित्व है से प्रेरित और संक्रमण मैट्रिक्स है जो से प्रेरित है ।π=(d1,d2,...)
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
dRddPdd
प्रेरण द्वारा, किसी भी ,
जहां , तहत -step ट्रांस्फ़ॉर्म मैट्रिक्स का प्रतिनिधित्व करता है ।n
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
Pjπjπ
चूँकि
हमारे पास
इसलिए हमारे पास । और जब से यह किसी भी , हम उस
b) का निष्कर्ष निकालते हैं।
Vπ=Rd1+∑i=1∞γiPiπRdi+1
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
V~≥VππV~≥maxπVπ=V∗
चरण 1 से अनुसरण करता है।
3
इष्टतम बेलमैन ऑपरेटर मानदंड में एक संकुचन है, cf. [2]।L∞
प्रमाण: किसी भी ,
जहां (*) में हमने इस तथ्य का उपयोग किया है कि
s
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
इस प्रकार Banach द्वारा निर्धारित बिंदु प्रमेय यह इस प्रकार है कि में एक विशिष्ट निश्चित बिंदु है।T
संदर्भ
[१] पुटरमैन, मार्टिन एल .. "मार्कोव निर्णय प्रक्रिया: असतत स्टोचस्टिक डायनामिक प्रोग्रामिंग।" (2016)।
[२] ए। लाजरिक http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf