सुदृढीकरण सीखने में छूट कारक की भूमिका को समझना


43

मैं खुद को सुदृढीकरण सीखने के बारे में सिखा रहा हूं, और रियायती इनाम की अवधारणा को समझने की कोशिश कर रहा हूं। तो इनाम यह बताने के लिए आवश्यक है कि कौन सा सिस्टम राज्य-एक्शन जोड़े अच्छा है, और कौन सा बुरा है। लेकिन मुझे समझ में नहीं आता है कि रियायती इनाम क्यों आवश्यक है। यह क्यों मायने रखता है कि एक अच्छा राज्य बाद में जल्द ही पहुंच जाता है

मैं समझता हूं कि यह कुछ विशिष्ट मामलों में प्रासंगिक है। उदाहरण के लिए, यदि आप शेयर बाजार में व्यापार करने के लिए सुदृढीकरण सीखने का उपयोग कर रहे हैं, तो बाद के बजाय जल्दी लाभ कमाना अधिक फायदेमंद है। ऐसा इसलिए है क्योंकि उस पैसे से अब आप उस पैसे से काम कर सकते हैं, जो बाद में उस पैसे के साथ काम करने से ज्यादा वांछनीय है।

लेकिन ज्यादातर मामलों में, मैं यह नहीं देखता कि छूट क्यों उपयोगी है। उदाहरण के लिए, मान लें कि आप एक रोबोट को सीखना चाहते थे कि दूसरे पक्ष तक पहुंचने के लिए एक कमरे में कैसे नेविगेट किया जाए, जहां एक बाधा से टकराए जाने पर जुर्माना हो। यदि कोई छूट कारक नहीं था, तो यह किसी भी बाधाओं से टकराए बिना, दूसरी तरफ पूरी तरह से पहुंचना सीख लेगा। वहां पहुंचने में लंबा समय लग सकता है, लेकिन यह अंततः वहां पहुंच जाएगा।

लेकिन अगर हम इनाम में छूट देते हैं, तो रोबोट को कमरे के दूसरी तरफ जल्दी पहुंचने के लिए प्रोत्साहित किया जाएगा, भले ही उसे रास्ते में वस्तुओं से टकराना पड़े। यह स्पष्ट रूप से एक वांछनीय परिणाम नहीं है। ज़रूर, आप चाहते हैं कि रोबोट दूसरी तरफ जल्दी से पहुंच जाए, लेकिन ऐसा नहीं है कि इसका मतलब है कि उसे रास्ते में वस्तुओं से टकराना है।

तो मेरा अंतर्ज्ञान यह है कि छूट कारक का कोई भी रूप, वास्तव में एक उप-इष्टतम समाधान का नेतृत्व करेगा। और डिस्काउंट फैक्टर का विकल्प अक्सर मनमाना लगता है - कई तरीके जिन्हें मैंने बस 0.9 पर सेट किया है। यह मुझे बहुत भोला लग रहा है, और इष्टतम समाधान और सबसे तेज़ समाधान के बीच एक मनमाना व्यापार-बंद देने के लिए प्रतीत होता है, जबकि वास्तव में यह व्यापार-बंद बहुत महत्वपूर्ण है।

कृपया कोई मुझे यह सब समझने में मदद कर सकता है? धन्यवाद :)

जवाबों:


36

टी एल; डॉ।

तथ्य यह है कि छूट की दर 1 से छोटी होने के लिए बाध्य है एक अनंत राशि परिमित बनाने के लिए एक गणितीय चाल है। यह कुछ एल्गोरिदम के अभिसरण को साबित करने में मदद करता है।

व्यवहार में, छूट कारक का उपयोग इस तथ्य को मॉडल करने के लिए किया जा सकता है कि निर्णय निर्माता अनिश्चित है कि क्या अगले निर्णय में दुनिया तुरंत (जैसे, पर्यावरण / खेल / प्रक्रिया ) समाप्त होने जा रही है।

उदाहरण के लिए:

यदि निर्णय लेने वाला एक रोबोट है, तो डिस्काउंट फैक्टर संभावना हो सकता है कि अगली बार तत्काल (दुनिया पिछले शब्दावली में समाप्त हो जाए) रोबोट बंद हो जाए। यही कारण है कि रोबोट की अदूरदर्शिता है और यह राशि इनाम को नहीं बल्कि रियायती राशि के इनाम को अनुकूलित करता है ।

डिस्काउंट फैक्टर 1 से छोटा (विस्तार में)

अधिक सटीक उत्तर देने के लिए, छूट की दर एक से कम होने की आवश्यकता है क्योंकि मैं पहले मार्कोव निर्णय प्रक्रिया (एमडीपी) को पेश करूंगा।

MDPs को हल करने के लिए सुदृढीकरण सीखने की तकनीक का उपयोग किया जा सकता है। एमडीपी मॉडलिंग निर्णय लेने की स्थितियों के लिए एक गणितीय ढांचा प्रदान करता है जहां परिणाम आंशिक रूप से यादृच्छिक होते हैं और आंशिक रूप से निर्णय निर्माता के नियंत्रण में होते हैं। एक एमडीपी एक राज्य अंतरिक्ष , एक एक्शन स्पेस , राज्यों के बीच संक्रमण संभावनाओं का एक कार्य (निर्णय निर्माता द्वारा की गई कार्रवाई के लिए सशर्त), और एक इनाम समारोह के माध्यम से परिभाषित किया गया है।SA

इसकी मूल सेटिंग में, निर्णय निर्माता लेता है और कार्रवाई करता है, और पर्यावरण से इनाम पाता है, और पर्यावरण अपनी स्थिति बदलता है। फिर निर्णय निर्माता पर्यावरण की स्थिति को भांप लेता है, एक कार्रवाई करता है, एक इनाम पाता है, और इसी तरह आगे बढ़ता है। राज्य के परिवर्तन संभावित हैं और पूरी तरह से वास्तविक स्थिति और निर्णय निर्माता द्वारा की गई कार्रवाई पर निर्भर करते हैं। निर्णय निर्माता द्वारा प्राप्त इनाम, कार्रवाई की गई और पर्यावरण की मूल और नई स्थिति दोनों पर निर्भर करता है।

एक इनाम प्राप्त जब कार्रवाई ले जा रहा है राज्य में और राज्य के लिए पर्यावरण / सिस्टम में परिवर्तन निर्णय निर्माता कार्रवाई की जाती है के बाद । निर्णय निर्माता, एक नीति का पालन करता , कि प्रत्येक राज्य के लिए लेता एक कार्रवाई । ताकि नीति वह हो जो निर्णय लेने वाले को बताए कि कौन से कार्य प्रत्येक राज्य में करने हैं। नीति को यादृच्छिक रूप में अच्छी तरह से तैयार किया जा सकता है लेकिन यह अभी के लिए कोई फर्क नहीं पड़ता।Rai(sj,sk)aisjskaiπ π():SAsjSaiAπ

इसका उद्देश्य यह है कि इस तरह से एक नीति खोजना हैπ

maxπ:S(n)ailimTE{n=1TβnRxi(S(n),S(n+1))}(1),
जहां छूट कारक है और ।ββ<1

ध्यान दें कि ऊपर दी गई अनुकूलन समस्या में, अनंत समय क्षितिज ( ) है, और इसका उद्देश्य अधिकतम इनाम (इनाम को से गुणा किया जाता है ) है। इसे आमतौर पर अनंत क्षितिज वाले छूट वाले इनाम मानदंडों के साथ एमडीपी समस्या कहा जाता हैTdiscountedRβn

समस्या को रियायती कहा जाता है क्योंकि । यदि यह एक रियायती समस्या नहीं था योग अभिसरण नहीं होता। सभी नीतियां जो औसतन हर बार एक सकारात्मक इनाम प्राप्त करती हैं, वे अनंत तक बढ़ जाती हैं। एक अनंत क्षितिज राशि इनाम मानदंड होगा , और एक अच्छा अनुकूलन मानदंड नहीं है।β<1β=1

यहाँ एक खिलौना उदाहरण है जो आपको दिखाता है कि मेरा क्या मतलब है:

मान लें कि केवल दो संभावित क्रियाएँ और यह कि इनाम फ़ंक्शन बराबर है यदि , और यदि ( पर निर्भर नहीं होता है)।a=0,1R1a=10a=0

यह स्पष्ट है कि अधिक प्रतिफल पाने वाली नीति को हमेशा कार्रवाई करनी है और कभी कार्रवाई नहीं करनी है । मैं इस नीति को कहूंगा । मैं तुलना दूसरे नीति करूँगा जो कि छोटे प्रायिकता साथ कार्रवाई , और अन्यथा कार्रवाई ।a=1a=0πππa=1α<<1a=0

अनंत क्षितिज में प्रतिफलित मापदंड मापदंड समीकरण (1) नीति लिए (एक ज्यामितीय श्रृंखला का योग ) बन जाता है, जबकि नीति समीकरण (1) के लिए हो जाता है। । चूंकि , हम कहते हैं कि तुलना में एक बेहतर नीति है । वास्तव में इष्टतम नीति है।11βππα1β11β>α1βπππ

अनंत क्षितिज योग में प्रतिफल मानदंड ( ) समीकरण (1) किसी भी पॉलिस के लिए अभिसरण नहीं करता है (यह अनंत तक रहता है)। इसलिए जबकि नीति तुलना में उच्च पुरस्कार प्राप्त करती है, दोनों नीतियां इस मानदंड के अनुसार समान हैं। यही कारण है कि अनंत क्षितिज राशि इनाम मानदंड उपयोगी नहीं है।β=1ππ

जैसा कि मैंने पहले बताया, समीकरण में योग बनाने की चाल बनाता है (1) अभिसरण।β<1

अन्य इष्टतमता मानदंड

अन्य इष्टतम मापदंड हैं जो उस लागू नहीं करते हैं :β<1

परिमित क्षितिज मानदंड का उद्देश्य यह है कि जब तक क्षितिज तब तक रियायती इनाम को अधिकतम करने के लिए है।T

maxπ:S(n)aiE{n=1TβnRxi(S(n),S(n+1))},

के लिए और परिमित।β1T

में अनंत क्षितिज औसत इनाम मापदंड उद्देश्य है

maxπ:S(n)ailimTE{n=1T1TRxi(S(n),S(n+1))},

ध्यान दें

अनुकूलता मानदंड के आधार पर एक इष्टतम नीति खोजने के लिए एक अलग एल्गोरिथ्म का उपयोग करेगा। उदाहरणों के लिए परिमित क्षितिज समस्याओं की इष्टतम नीतियां राज्य और वास्तविक समय दोनों पर निर्भर होंगी। अधिकांश सुदृढीकरण लर्निंग एल्गोरिदम (जैसे एसएआरएसए या क्यू-लर्निंग) केवल डिस्काउंटेड इनाम अनंत क्षितिज मानदंड (डायनामिक प्रोग्रामिंग एल्गोरिदम के लिए ऐसा ही होता है) के लिए इष्टतम नीति में परिवर्तित होता है। औसत पुरस्कार मानदंड के लिए कोई एल्गोरिथ्म नहीं है जिसे इष्टतम नीति में परिवर्तित करने के लिए दिखाया गया है, हालांकि कोई भी आर-शिक्षा का उपयोग कर सकता है, जिसमें अच्छा सैद्धांतिक अभिसरण नहीं है।


1
आपके उत्तर में सभी चीनी को समझने के लिए मुझे क्या पढ़ना चाहिए, इस पर कोई विचार?
थिबुत नोह

@thibautnoah यह IMHO सबसे अच्छा संदर्भ है सुदृढीकरण सीखना: सटन और बार्टो का एक परिचय। [ people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf]
PolBM

धन्यवाद दोस्त, शायद गणित पर एक और पुस्तक की आवश्यकता होगी, लेकिन मुझे लगता है कि यह एक शुरुआत है;)
thibaut noah

6

आप रहे हों तो सही है कि छूट कारक (तथाकथित - ध्यान दें कि यह तुलना में अलग है TD- से ) एक "जीवन की अत्यावश्यकता" की तरह काम करता है और इसलिए है समस्या का एक हिस्सा - जैसे यह है मानव जीवन: कुछ लोग ऐसे जीते हैं जैसे कि वे हमेशा रहेंगे; कुछ लोग ऐसे जीते हैं मानो वे कल मरने वाले हों।γλλ


2

टीएल; डीआर: डिस्काउंट कारक समय क्षितिज के साथ जुड़े हुए हैं। लंबे समय तक क्षितिज में अधिक विचरण होता है क्योंकि उनमें अधिक अप्रासंगिक जानकारी शामिल होती है, जबकि कम समय के क्षितिज केवल अल्पकालिक लाभ के लिए पक्षपाती होते हैं ।

डिस्काउंट फैक्टर अनिवार्य रूप से यह निर्धारित करता है कि सुदृढीकरण सीखने वाले एजेंटों को तत्काल भविष्य में उन दूरियों के सापेक्ष पुरस्कारों की कितनी परवाह है। यदि , एजेंट पूरी तरह से मैओपिक होगा और केवल उन कार्यों के बारे में सीखेगा जो तत्काल इनाम देते हैं। यदि , तो एजेंट अपने सभी कार्यों का मूल्यांकन अपने भविष्य के सभी पुरस्कारों के कुल योग के आधार पर करेगा।γ=0γ=1

तो क्यों न आप हमेशा बनाना चाहते हैं संभव के रूप में उच्च के रूप में? खैर, अधिकांश कार्यों में लंबे समय तक चलने वाले नतीजे नहीं होते हैं। उदाहरण के लिए, मान लें कि हर महीने के पहले दिन आप अपने आप को एक स्मूथी से ट्रीट करने का फैसला करते हैं, और आपको यह तय करना होगा कि आपको ब्लूबेरी स्मूदी मिलेगी या स्ट्रॉबेरी स्मूदी। एक अच्छे सुदृढीकरण सीखने वाले के रूप में, आप अपने निर्णय की गुणवत्ता को देखते हैं कि आपके बाद के पुरस्कार कितने बड़े हैं। यदि आपका समय क्षितिज बहुत कम है, तो आप केवल तत्काल पुरस्कारों में कारक होंगे, जैसे कि आपकी स्मूथी कितनी स्वादिष्ट है। लंबे समय तक क्षितिज के साथ, कुछ घंटों की तरह, आप चीजों में भी कारक हो सकते हैं जैसे कि आपको पेट में गड़बड़ी हुई है या नहीं। लेकिन अगर आपका समय क्षितिज पूरे महीने तक रहता है, तो हर एक चीज जो आपको पूरे महीने के लिए अच्छा या बुरा महसूस कराती हैγआपके निर्णय में कारक होगा कि आपने सही ठग निर्णय लिया है या नहीं। आप बहुत सारी अप्रासंगिक सूचनाओं में फैक्टरिंग करेंगे, और इसलिए आपके निर्णय में बहुत बड़ा बदलाव होगा और इसे सीखना मुश्किल होगा।

किसी समय क्षितिज को चुनने के बराबर का एक विशेष मूल्य चुनना है। यह रूप में एक एजेंट के रियायती इनाम को फिर से लिखने में मदद करता है जहाँ आप की पहचान करते हैं और । मूल्य स्पष्ट रूप से एक डिस्काउंट फैक्टर से जुड़े समय क्षितिज को दर्शाता है; से मेल खाता है , और कोई भी पुरस्कार जो से बहुत अधिक हैγG

Gt=Rt+γRt+1+γ2Rt+2+=k=0γkRt+k=Δt=0eΔt/τRt+Δt
γ=e1/τkΔtτγ=1τ=τभविष्य में समय कदम तेजी से दबा रहे हैं। आपको आम तौर पर एक छूट कारक चुनना चाहिए जैसे कि समय क्षितिज में किसी विशेष कार्रवाई के लिए सभी प्रासंगिक पुरस्कार शामिल हैं, लेकिन कोई और नहीं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.