टी एल; डॉ।
तथ्य यह है कि छूट की दर 1 से छोटी होने के लिए बाध्य है एक अनंत राशि परिमित बनाने के लिए एक गणितीय चाल है। यह कुछ एल्गोरिदम के अभिसरण को साबित करने में मदद करता है।
व्यवहार में, छूट कारक का उपयोग इस तथ्य को मॉडल करने के लिए किया जा सकता है कि निर्णय निर्माता अनिश्चित है कि क्या अगले निर्णय में दुनिया तुरंत (जैसे, पर्यावरण / खेल / प्रक्रिया ) समाप्त होने जा रही है।
उदाहरण के लिए:
यदि निर्णय लेने वाला एक रोबोट है, तो डिस्काउंट फैक्टर संभावना हो सकता है कि अगली बार तत्काल (दुनिया पिछले शब्दावली में समाप्त हो जाए) रोबोट बंद हो जाए। यही कारण है कि रोबोट की अदूरदर्शिता है और यह राशि इनाम को नहीं बल्कि रियायती राशि के इनाम को अनुकूलित करता है
।
डिस्काउंट फैक्टर 1 से छोटा (विस्तार में)
अधिक सटीक उत्तर देने के लिए, छूट की दर एक से कम होने की आवश्यकता है क्योंकि मैं पहले मार्कोव निर्णय प्रक्रिया (एमडीपी) को पेश करूंगा।
MDPs को हल करने के लिए सुदृढीकरण सीखने की तकनीक का उपयोग किया जा सकता है। एमडीपी मॉडलिंग निर्णय लेने की स्थितियों के लिए एक गणितीय ढांचा प्रदान करता है जहां परिणाम आंशिक रूप से यादृच्छिक होते हैं और आंशिक रूप से निर्णय निर्माता के नियंत्रण में होते हैं। एक एमडीपी एक राज्य अंतरिक्ष , एक एक्शन स्पेस , राज्यों के बीच संक्रमण संभावनाओं का एक कार्य (निर्णय निर्माता द्वारा की गई कार्रवाई के लिए सशर्त), और एक इनाम समारोह के माध्यम से परिभाषित किया गया है।SA
इसकी मूल सेटिंग में, निर्णय निर्माता लेता है और कार्रवाई करता है, और पर्यावरण से इनाम पाता है, और पर्यावरण अपनी स्थिति बदलता है। फिर निर्णय निर्माता पर्यावरण की स्थिति को भांप लेता है, एक कार्रवाई करता है, एक इनाम पाता है, और इसी तरह आगे बढ़ता है। राज्य के परिवर्तन संभावित हैं और पूरी तरह से वास्तविक स्थिति और निर्णय निर्माता द्वारा की गई कार्रवाई पर निर्भर करते हैं। निर्णय निर्माता द्वारा प्राप्त इनाम, कार्रवाई की गई और पर्यावरण की मूल और नई स्थिति दोनों पर निर्भर करता है।
एक इनाम प्राप्त जब कार्रवाई ले जा रहा है राज्य में और राज्य के लिए पर्यावरण / सिस्टम में परिवर्तन निर्णय निर्माता कार्रवाई की जाती है के बाद । निर्णय निर्माता, एक नीति का पालन करता , कि प्रत्येक राज्य के लिए लेता एक कार्रवाई । ताकि नीति वह हो जो निर्णय लेने वाले को बताए कि कौन से कार्य प्रत्येक राज्य में करने हैं। नीति को यादृच्छिक रूप में अच्छी तरह से तैयार किया जा सकता है लेकिन यह अभी के लिए कोई फर्क नहीं पड़ता।Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
इसका उद्देश्य यह है कि इस तरह से एक नीति खोजना हैπ
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
जहां छूट कारक है और ।ββ<1
ध्यान दें कि ऊपर दी गई अनुकूलन समस्या में, अनंत समय क्षितिज ( ) है, और इसका उद्देश्य अधिकतम इनाम (इनाम को से गुणा किया जाता है ) है। इसे आमतौर पर अनंत क्षितिज वाले छूट वाले इनाम मानदंडों के साथ एमडीपी समस्या कहा जाता है ।T→∞discountedRβn
समस्या को रियायती कहा जाता है क्योंकि । यदि यह एक रियायती समस्या नहीं था योग अभिसरण नहीं होता। सभी नीतियां जो औसतन हर बार एक सकारात्मक इनाम प्राप्त करती हैं, वे अनंत तक बढ़ जाती हैं। एक अनंत क्षितिज राशि इनाम मानदंड होगा , और एक अच्छा अनुकूलन मानदंड नहीं है।β<1β=1
यहाँ एक खिलौना उदाहरण है जो आपको दिखाता है कि मेरा क्या मतलब है:
मान लें कि केवल दो संभावित क्रियाएँ और यह कि इनाम फ़ंक्शन बराबर है यदि , और यदि ( पर निर्भर नहीं होता है)।a=0,1R1a=10a=0
यह स्पष्ट है कि अधिक प्रतिफल पाने वाली नीति को हमेशा कार्रवाई करनी है और कभी कार्रवाई नहीं करनी है । मैं इस नीति को कहूंगा । मैं तुलना दूसरे नीति करूँगा जो कि छोटे प्रायिकता साथ कार्रवाई , और अन्यथा कार्रवाई ।a=1a=0π∗π∗π′a=1α<<1a=0
अनंत क्षितिज में प्रतिफलित मापदंड मापदंड समीकरण (1) नीति लिए (एक ज्यामितीय श्रृंखला का योग ) बन जाता है, जबकि नीति समीकरण (1) के लिए हो जाता है। । चूंकि , हम कहते हैं कि तुलना में एक बेहतर नीति है । वास्तव में इष्टतम नीति है।11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
अनंत क्षितिज योग में प्रतिफल मानदंड ( ) समीकरण (1) किसी भी पॉलिस के लिए अभिसरण नहीं करता है (यह अनंत तक रहता है)। इसलिए जबकि नीति तुलना में उच्च पुरस्कार प्राप्त करती है, दोनों नीतियां इस मानदंड के अनुसार समान हैं। यही कारण है कि अनंत क्षितिज राशि इनाम मानदंड उपयोगी नहीं है।β=1ππ′
जैसा कि मैंने पहले बताया, समीकरण में योग बनाने की चाल बनाता है (1) अभिसरण।β<1
अन्य इष्टतमता मानदंड
अन्य इष्टतम मापदंड हैं जो उस लागू नहीं करते हैं :β<1
परिमित क्षितिज मानदंड का उद्देश्य यह है कि जब तक क्षितिज तब तक रियायती इनाम को अधिकतम करने के लिए है।T
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
के लिए और परिमित।β≤1T
में अनंत क्षितिज औसत इनाम मापदंड उद्देश्य है
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
ध्यान दें
अनुकूलता मानदंड के आधार पर एक इष्टतम नीति खोजने के लिए एक अलग एल्गोरिथ्म का उपयोग करेगा। उदाहरणों के लिए परिमित क्षितिज समस्याओं की इष्टतम नीतियां राज्य और वास्तविक समय दोनों पर निर्भर होंगी। अधिकांश सुदृढीकरण लर्निंग एल्गोरिदम (जैसे एसएआरएसए या क्यू-लर्निंग) केवल डिस्काउंटेड इनाम अनंत क्षितिज मानदंड (डायनामिक प्रोग्रामिंग एल्गोरिदम के लिए ऐसा ही होता है) के लिए इष्टतम नीति में परिवर्तित होता है। औसत पुरस्कार मानदंड के लिए कोई एल्गोरिथ्म नहीं है जिसे इष्टतम नीति में परिवर्तित करने के लिए दिखाया गया है, हालांकि कोई भी आर-शिक्षा का उपयोग कर सकता है, जिसमें अच्छा सैद्धांतिक अभिसरण नहीं है।