सुदृढीकरण सीखने में छूट कारक की भूमिका को समझना

43

मैं खुद को सुदृढीकरण सीखने के बारे में सिखा रहा हूं, और रियायती इनाम की अवधारणा को समझने की कोशिश कर रहा हूं। तो इनाम यह बताने के लिए आवश्यक है कि कौन सा सिस्टम राज्य-एक्शन जोड़े अच्छा है, और कौन सा बुरा है। लेकिन मुझे समझ में नहीं आता है कि रियायती इनाम क्यों आवश्यक है। यह क्यों मायने रखता है कि एक अच्छा राज्य बाद में जल्द ही पहुंच जाता है

मैं समझता हूं कि यह कुछ विशिष्ट मामलों में प्रासंगिक है। उदाहरण के लिए, यदि आप शेयर बाजार में व्यापार करने के लिए सुदृढीकरण सीखने का उपयोग कर रहे हैं, तो बाद के बजाय जल्दी लाभ कमाना अधिक फायदेमंद है। ऐसा इसलिए है क्योंकि उस पैसे से अब आप उस पैसे से काम कर सकते हैं, जो बाद में उस पैसे के साथ काम करने से ज्यादा वांछनीय है।

लेकिन ज्यादातर मामलों में, मैं यह नहीं देखता कि छूट क्यों उपयोगी है। उदाहरण के लिए, मान लें कि आप एक रोबोट को सीखना चाहते थे कि दूसरे पक्ष तक पहुंचने के लिए एक कमरे में कैसे नेविगेट किया जाए, जहां एक बाधा से टकराए जाने पर जुर्माना हो। यदि कोई छूट कारक नहीं था, तो यह किसी भी बाधाओं से टकराए बिना, दूसरी तरफ पूरी तरह से पहुंचना सीख लेगा। वहां पहुंचने में लंबा समय लग सकता है, लेकिन यह अंततः वहां पहुंच जाएगा।

लेकिन अगर हम इनाम में छूट देते हैं, तो रोबोट को कमरे के दूसरी तरफ जल्दी पहुंचने के लिए प्रोत्साहित किया जाएगा, भले ही उसे रास्ते में वस्तुओं से टकराना पड़े। यह स्पष्ट रूप से एक वांछनीय परिणाम नहीं है। ज़रूर, आप चाहते हैं कि रोबोट दूसरी तरफ जल्दी से पहुंच जाए, लेकिन ऐसा नहीं है कि इसका मतलब है कि उसे रास्ते में वस्तुओं से टकराना है।

तो मेरा अंतर्ज्ञान यह है कि छूट कारक का कोई भी रूप, वास्तव में एक उप-इष्टतम समाधान का नेतृत्व करेगा। और डिस्काउंट फैक्टर का विकल्प अक्सर मनमाना लगता है - कई तरीके जिन्हें मैंने बस 0.9 पर सेट किया है। यह मुझे बहुत भोला लग रहा है, और इष्टतम समाधान और सबसे तेज़ समाधान के बीच एक मनमाना व्यापार-बंद देने के लिए प्रतीत होता है, जबकि वास्तव में यह व्यापार-बंद बहुत महत्वपूर्ण है।

कृपया कोई मुझे यह सब समझने में मदद कर सकता है? धन्यवाद :)

machine-learning reinforcement-learning

— Karnivaurus
स्रोत

36

टी एल; डॉ।

तथ्य यह है कि छूट की दर 1 से छोटी होने के लिए बाध्य है एक अनंत राशि परिमित बनाने के लिए एक गणितीय चाल है। यह कुछ एल्गोरिदम के अभिसरण को साबित करने में मदद करता है।

व्यवहार में, छूट कारक का उपयोग इस तथ्य को मॉडल करने के लिए किया जा सकता है कि निर्णय निर्माता अनिश्चित है कि क्या अगले निर्णय में दुनिया तुरंत (जैसे, पर्यावरण / खेल / प्रक्रिया ) समाप्त होने जा रही है।

उदाहरण के लिए:

यदि निर्णय लेने वाला एक रोबोट है, तो डिस्काउंट फैक्टर संभावना हो सकता है कि अगली बार तत्काल (दुनिया पिछले शब्दावली में समाप्त हो जाए) रोबोट बंद हो जाए। यही कारण है कि रोबोट की अदूरदर्शिता है और यह राशि इनाम को नहीं बल्कि रियायती राशि के इनाम को अनुकूलित करता है ।

डिस्काउंट फैक्टर 1 से छोटा (विस्तार में)

अधिक सटीक उत्तर देने के लिए, छूट की दर एक से कम होने की आवश्यकता है क्योंकि मैं पहले मार्कोव निर्णय प्रक्रिया (एमडीपी) को पेश करूंगा।

MDPs को हल करने के लिए सुदृढीकरण सीखने की तकनीक का उपयोग किया जा सकता है। एमडीपी मॉडलिंग निर्णय लेने की स्थितियों के लिए एक गणितीय ढांचा प्रदान करता है जहां परिणाम आंशिक रूप से यादृच्छिक होते हैं और आंशिक रूप से निर्णय निर्माता के नियंत्रण में होते हैं। एक एमडीपी एक राज्य अंतरिक्ष , एक एक्शन स्पेस , राज्यों के बीच संक्रमण संभावनाओं का एक कार्य (निर्णय निर्माता द्वारा की गई कार्रवाई के लिए सशर्त), और एक इनाम समारोह के माध्यम से परिभाषित किया गया है। $\mathcal{S}$ $\mathcal{A}$

इसकी मूल सेटिंग में, निर्णय निर्माता लेता है और कार्रवाई करता है, और पर्यावरण से इनाम पाता है, और पर्यावरण अपनी स्थिति बदलता है। फिर निर्णय निर्माता पर्यावरण की स्थिति को भांप लेता है, एक कार्रवाई करता है, एक इनाम पाता है, और इसी तरह आगे बढ़ता है। राज्य के परिवर्तन संभावित हैं और पूरी तरह से वास्तविक स्थिति और निर्णय निर्माता द्वारा की गई कार्रवाई पर निर्भर करते हैं। निर्णय निर्माता द्वारा प्राप्त इनाम, कार्रवाई की गई और पर्यावरण की मूल और नई स्थिति दोनों पर निर्भर करता है।

एक इनाम प्राप्त जब कार्रवाई ले जा रहा है राज्य में और राज्य के लिए पर्यावरण / सिस्टम में परिवर्तन निर्णय निर्माता कार्रवाई की जाती है के बाद । निर्णय निर्माता, एक नीति का पालन करता , कि प्रत्येक राज्य के लिए लेता एक कार्रवाई । ताकि नीति वह हो जो निर्णय लेने वाले को बताए कि कौन से कार्य प्रत्येक राज्य में करने हैं। नीति को यादृच्छिक रूप में अच्छी तरह से तैयार किया जा सकता है लेकिन यह अभी के लिए कोई फर्क नहीं पड़ता। $R_{a_i}(s_j,s_k)$ $a_i$ $s_j$ $s_k$ $a_i$ $\pi$ $\pi(\cdot):\mathcal{S}\rightarrow\mathcal{A}$ $s_j \in \mathcal{S}$ $a_i \in \mathcal{A}$ $\pi$

इसका उद्देश्य यह है कि इस तरह से एक नीति खोजना है $\pi$

max_{π : S (n) \to a_{i}} lim_{T \to \infty} E {\sum_{n = 1}^{T} β^{n} R_{x_{i}} (S (n), S (n + 1))} (1),

$\begin{equation} \label{eq:1} \max_{\pi:S(n)\rightarrow a_i} \lim_{T\rightarrow \infty } E \left\{ \sum_{n=1}^T \beta^n R_{x_i}(S(n),S(n+1)) \right\} (1), \end{equation}$ जहां छूट कारक है और ।

β

$\beta$

β < 1

$\beta<1$

ध्यान दें कि ऊपर दी गई अनुकूलन समस्या में, अनंत समय क्षितिज ( ) है, और इसका उद्देश्य अधिकतम इनाम (इनाम को से गुणा किया जाता है ) है। इसे आमतौर पर अनंत क्षितिज वाले छूट वाले इनाम मानदंडों के साथ एमडीपी समस्या कहा जाता है । $T\rightarrow \infty$ $discounted$ $R$ $\beta^n$

समस्या को रियायती कहा जाता है क्योंकि । यदि यह एक रियायती समस्या नहीं था योग अभिसरण नहीं होता। सभी नीतियां जो औसतन हर बार एक सकारात्मक इनाम प्राप्त करती हैं, वे अनंत तक बढ़ जाती हैं। एक अनंत क्षितिज राशि इनाम मानदंड होगा , और एक अच्छा अनुकूलन मानदंड नहीं है। $\beta<1$ $\beta=1$

यहाँ एक खिलौना उदाहरण है जो आपको दिखाता है कि मेरा क्या मतलब है:

मान लें कि केवल दो संभावित क्रियाएँ और यह कि इनाम फ़ंक्शन बराबर है यदि , और यदि ( पर निर्भर नहीं होता है)। $a={0,1}$ $R$ $1$ $a=1$ $0$ $a=0$

यह स्पष्ट है कि अधिक प्रतिफल पाने वाली नीति को हमेशा कार्रवाई करनी है और कभी कार्रवाई नहीं करनी है । मैं इस नीति को कहूंगा । मैं तुलना दूसरे नीति करूँगा जो कि छोटे प्रायिकता साथ कार्रवाई , और अन्यथा कार्रवाई । $a=1$ $a=0$ $\pi^*$ $\pi^*$ $\pi'$ $a=1$ $\alpha << 1$ $a=0$

अनंत क्षितिज में प्रतिफलित मापदंड मापदंड समीकरण (1) नीति लिए (एक ज्यामितीय श्रृंखला का योग ) बन जाता है, जबकि नीति समीकरण (1) के लिए हो जाता है। । चूंकि , हम कहते हैं कि तुलना में एक बेहतर नीति है । वास्तव में इष्टतम नीति है। $\frac{1}{1-\beta}$ $\pi^*$ $\pi '$ $\frac{\alpha}{1-\beta}$ $\frac{1}{1-\beta} > \frac{\alpha}{1-\beta}$ $\pi^*$ $\pi '$ $\pi^*$

अनंत क्षितिज योग में प्रतिफल मानदंड ( ) समीकरण (1) किसी भी पॉलिस के लिए अभिसरण नहीं करता है (यह अनंत तक रहता है)। इसलिए जबकि नीति तुलना में उच्च पुरस्कार प्राप्त करती है, दोनों नीतियां इस मानदंड के अनुसार समान हैं। यही कारण है कि अनंत क्षितिज राशि इनाम मानदंड उपयोगी नहीं है। $\beta=1$ $\pi$ $\pi'$

जैसा कि मैंने पहले बताया, समीकरण में योग बनाने की चाल बनाता है (1) अभिसरण। $\beta<1$

अन्य इष्टतमता मानदंड

अन्य इष्टतम मापदंड हैं जो उस लागू नहीं करते हैं : $\beta<1$

परिमित क्षितिज मानदंड का उद्देश्य यह है कि जब तक क्षितिज तब तक रियायती इनाम को अधिकतम करने के लिए है। $T$

max_{π : S (n) \to a_{i}} E {\sum_{n = 1}^{T} β^{n} R_{x_{i}} (S (n), S (n + 1))},

$\begin{equation} \label{eq:2} \max_{\pi:S(n)\rightarrow a_i} E \left\{ \sum_{n=1}^T \beta^n R_{x_i}(S(n),S(n+1)) \right\}, \end{equation}$

के लिए और परिमित। $\beta \leq 1$ $T$

में अनंत क्षितिज औसत इनाम मापदंड उद्देश्य है

max_{π : S (n) \to a_{i}} lim_{T \to \infty} E {\sum_{n = 1}^{T} \frac{1}{T} R_{x_{i}} (S (n), S (n + 1))},

$\begin{equation} \max_{\pi:S(n)\rightarrow a_i} \lim_{T\rightarrow \infty } E \left\{ \sum_{n=1}^T \frac{1}{T} R_{x_i}(S(n),S(n+1)) \right\}, \end{equation}$

ध्यान दें

अनुकूलता मानदंड के आधार पर एक इष्टतम नीति खोजने के लिए एक अलग एल्गोरिथ्म का उपयोग करेगा। उदाहरणों के लिए परिमित क्षितिज समस्याओं की इष्टतम नीतियां राज्य और वास्तविक समय दोनों पर निर्भर होंगी। अधिकांश सुदृढीकरण लर्निंग एल्गोरिदम (जैसे एसएआरएसए या क्यू-लर्निंग) केवल डिस्काउंटेड इनाम अनंत क्षितिज मानदंड (डायनामिक प्रोग्रामिंग एल्गोरिदम के लिए ऐसा ही होता है) के लिए इष्टतम नीति में परिवर्तित होता है। औसत पुरस्कार मानदंड के लिए कोई एल्गोरिथ्म नहीं है जिसे इष्टतम नीति में परिवर्तित करने के लिए दिखाया गया है, हालांकि कोई भी आर-शिक्षा का उपयोग कर सकता है, जिसमें अच्छा सैद्धांतिक अभिसरण नहीं है।

— PolBM
स्रोत

1

आपके उत्तर में सभी चीनी को समझने के लिए मुझे क्या पढ़ना चाहिए, इस पर कोई विचार?

— थिबुत नोह

@thibautnoah यह IMHO सबसे अच्छा संदर्भ है सुदृढीकरण सीखना: सटन और बार्टो का एक परिचय। [ people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf]

— PolBM

धन्यवाद दोस्त, शायद गणित पर एक और पुस्तक की आवश्यकता होगी, लेकिन मुझे लगता है कि यह एक शुरुआत है;)

— thibaut noah

6

आप रहे हों तो सही है कि छूट कारक (तथाकथित - ध्यान दें कि यह तुलना में अलग है TD- से ) एक "जीवन की अत्यावश्यकता" की तरह काम करता है और इसलिए है समस्या का एक हिस्सा - जैसे यह है मानव जीवन: कुछ लोग ऐसे जीते हैं जैसे कि वे हमेशा रहेंगे; कुछ लोग ऐसे जीते हैं मानो वे कल मरने वाले हों। $\gamma$ $\lambda$ $\lambda$

— नील जी
स्रोत

2

टीएल; डीआर: डिस्काउंट कारक समय क्षितिज के साथ जुड़े हुए हैं। लंबे समय तक क्षितिज में अधिक विचरण होता है क्योंकि उनमें अधिक अप्रासंगिक जानकारी शामिल होती है, जबकि कम समय के क्षितिज केवल अल्पकालिक लाभ के लिए पक्षपाती होते हैं ।

डिस्काउंट फैक्टर अनिवार्य रूप से यह निर्धारित करता है कि सुदृढीकरण सीखने वाले एजेंटों को तत्काल भविष्य में उन दूरियों के सापेक्ष पुरस्कारों की कितनी परवाह है। यदि , एजेंट पूरी तरह से मैओपिक होगा और केवल उन कार्यों के बारे में सीखेगा जो तत्काल इनाम देते हैं। यदि , तो एजेंट अपने सभी कार्यों का मूल्यांकन अपने भविष्य के सभी पुरस्कारों के कुल योग के आधार पर करेगा। $\gamma = 0$ $\gamma = 1$

तो क्यों न आप हमेशा बनाना चाहते हैं संभव के रूप में उच्च के रूप में? खैर, अधिकांश कार्यों में लंबे समय तक चलने वाले नतीजे नहीं होते हैं। उदाहरण के लिए, मान लें कि हर महीने के पहले दिन आप अपने आप को एक स्मूथी से ट्रीट करने का फैसला करते हैं, और आपको यह तय करना होगा कि आपको ब्लूबेरी स्मूदी मिलेगी या स्ट्रॉबेरी स्मूदी। एक अच्छे सुदृढीकरण सीखने वाले के रूप में, आप अपने निर्णय की गुणवत्ता को देखते हैं कि आपके बाद के पुरस्कार कितने बड़े हैं। यदि आपका समय क्षितिज बहुत कम है, तो आप केवल तत्काल पुरस्कारों में कारक होंगे, जैसे कि आपकी स्मूथी कितनी स्वादिष्ट है। लंबे समय तक क्षितिज के साथ, कुछ घंटों की तरह, आप चीजों में भी कारक हो सकते हैं जैसे कि आपको पेट में गड़बड़ी हुई है या नहीं। लेकिन अगर आपका समय क्षितिज पूरे महीने तक रहता है, तो हर एक चीज जो आपको पूरे महीने के लिए अच्छा या बुरा महसूस कराती है $\gamma$ आपके निर्णय में कारक होगा कि आपने सही ठग निर्णय लिया है या नहीं। आप बहुत सारी अप्रासंगिक सूचनाओं में फैक्टरिंग करेंगे, और इसलिए आपके निर्णय में बहुत बड़ा बदलाव होगा और इसे सीखना मुश्किल होगा।

किसी समय क्षितिज को चुनने के बराबर का एक विशेष मूल्य चुनना है। यह रूप में एक एजेंट के रियायती इनाम को फिर से लिखने में मदद करता है जहाँ आप की पहचान करते हैं और । मूल्य स्पष्ट रूप से एक डिस्काउंट फैक्टर से जुड़े समय क्षितिज को दर्शाता है; से मेल खाता है , और कोई भी पुरस्कार जो से बहुत अधिक है $\gamma$ $G$

G_{t} = R_{t} + γ R_{t + 1} + γ^{2} R_{t + 2} + \dots = \sum_{k = 0}^{\infty} γ^{k} R_{t + k} = \sum_{Δ t = 0}^{\infty} e^{- Δ t / τ} R_{t + Δ t}

$G_t = R_{t} + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots \\ = \sum_{k=0}^{\infty} \gamma^k R_{t+k} = \sum_{\Delta t=0}^{\infty} e^{-\Delta t / \tau} R_{t+\Delta t}$

γ = e^{- 1 / τ}

$\gamma = e^{-1/\tau}$

k \to Δ t

$k \rightarrow \Delta t$

τ

$\tau$

γ = 1

$\gamma = 1$

τ = \infty

$\tau = \infty$

τ

$\tau$ भविष्य में समय कदम तेजी से दबा रहे हैं। आपको आम तौर पर एक छूट कारक चुनना चाहिए जैसे कि समय क्षितिज में किसी विशेष कार्रवाई के लिए सभी प्रासंगिक पुरस्कार शामिल हैं, लेकिन कोई और नहीं।

— clwainwright
स्रोत