REINFORCE एल्गोरिथ्म में छूट की दर दो बार क्यों दिखाई देती है?

11

मैं रेनफोर्स लर्निंग: एन इंट्रोडक्शन बाय रिचर्ड एस सटन और एंड्रयू जी बार्टो (पूरा मसौदा, 5 नवंबर, 2017) किताब पढ़ रहा था ।

पृष्ठ 271 पर, एपिसोडिक मोंटे-कार्लो पॉलिसी-ग्रैडिएंट विधि के लिए छद्म कोड प्रस्तुत किया गया है। इस छद्म कोड को देखकर मैं समझ नहीं पा रहा हूं कि ऐसा क्यों लगता है कि छूट की दर 2 बार, अद्यतन स्थिति में एक बार और वापसी के अंदर दूसरी बार दिखाई देती है। [नीचे आंकड़ा देखें]

ऐसा लगता है कि चरण 1 के बाद के चरणों के लिए वापसी केवल पहले चरण की वापसी का एक छंटनी है। इसके अलावा, यदि आप पुस्तक में सिर्फ एक पृष्ठ ऊपर देखते हैं तो आपको केवल 1 छूट दर (रिटर्न के अंदर एक) के साथ एक समीकरण मिलता है।

तब छद्म कोड अलग क्यों लगता है? मेरा अनुमान है कि मैं कुछ गलत समझ रहा हूं:

\begin{matrix} (13.6) & θ_{t + 1} \dot{=} θ_{t} + α G_{t} \frac{\nabla_{θ} π (A_{t} | S_{t}, θ_{t})}{π (A_{t} | S_{t}, θ_{t})} . \end{matrix}

${\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}. \tag{13.6}$

— डिएगो ओरेलाना
स्रोत

5

छूट कारक दो बार दिखाई देता है, और यह सही है।

ऐसा इसलिए है क्योंकि आप जिस कार्य को एक समस्या के लिए REINFORCE में अधिकतम करने की कोशिश कर रहे हैं (ग्रेडिएंट ले कर) एक दिए गए राज्य से वितरण का अपेक्षित प्रतिफल (वितरण) है:

J (θ) = E_{π (θ)} [G_{t} | S_{t} = s_{0}, t = 0]

$J(\theta) = \mathbb{E}_{\pi(\theta)}[G_t|S_t = s_0, t=0]$

इसलिए, एपिसोड के दौरान, जब आप रिटर्न , आदि का नमूना लेते हैं , तो ये आपके द्वारा हल की जाने वाली समस्या से कम प्रासंगिक होंगे, छूट कारक द्वारा दूसरी बार कम करने पर जैसा कि आपने नोट किया। एक प्रासंगिक समस्या और साथ चरम पर तो सुदृढ़ केवल पहली कार्रवाई के लिए एक इष्टतम नीति मिल जाएगा। $G_1$ $G_2$ $\gamma = 0$

अन्य एल्गोरिदम, इस तरह के लिए अभिनेता-समालोचक उपयोग विभिन्न योगों के रूप में निरंतर समस्याओं, में उस कार्य को , इसलिए की है कि कारक नहीं है । $J(\theta)$ $\gamma^t$

— नील स्लेटर
स्रोत

5

नील का जवाब पहले से ही क्यों स्यूडोकोड (अतिरिक्त के साथ करने के लिए के रूप में कुछ अंतर्ज्ञान प्रदान करता है अवधि) सही है। $\gamma^t$

मैं इसके अतिरिक्त स्पष्ट करना चाहूंगा कि आपको कुछ भी गलत नहीं लगता है, पुस्तक में समीकरण (13.6) वास्तव में छद्मकोश से अलग है ।

अब, मेरे पास उस पुस्तक का संस्करण नहीं है जिसका आपने यहां उल्लेख किया है, लेकिन मेरे पास 22 मार्च, 2018 से बाद का मसौदा है, और इस विशेष विषय पर पाठ समान है। इस संस्करण में:

$\gamma = 1$
यह प्रमाण अंततः 329 पृष्ठ पर उसी समीकरण (13.6) की ओर जाता है।
$\gamma = 1$
$\gamma < 1$

— डेनिस सोमरस
स्रोत

2

धन्यवाद। आपके तीसरे बिंदु की व्याख्या 2017 के मसौदे पर गायब थी।

— डिएगो ओरेलाना

2

@DiegoOrellana मुझे अब 22 मार्च के ड्राफ्ट का लिंक नहीं मिल रहा है, यहां एक बाद का ड्राफ्ट (उल्लेखित तारीख नहीं मिल सकता है) प्रतीत होता है । इस संस्करण में वास्तव में एक फैंसी कवर है, इसलिए यह ड्राफ्ट के बजाय अंतिम संस्करण भी हो सकता है। यदि भविष्य में लिंक टूट गया, तो मुझे संदेह है कि एक नया लिंक यहां उपलब्ध कराया जाएगा ।

— डेनिस सॉमर

3

यह एक सूक्ष्म मुद्दा है।

यदि आप A3C एल्गोरिथ्म को मूल पेपर (p.4 और परिशिष्ट S3 के लिए छद्म कोड) में देखते हैं, तो उनके अभिनेता-आलोचक एल्गोरिथ्म (समान एल्गोरिथ्म दोनों एपिसोड और निरंतर समस्याएं) अभिनेता के सापेक्ष गामा के एक कारक से दूर है- सटन और Barto किताब में प्रासंगिक समस्याओं के लिए आलोचक छद्म कोड (जनवरी 2019 संस्करण के p.332 http://incompleteideas.net/book/the-book.html )। सटन और बार्टो पुस्तक में अतिरिक्त "पहला" गामा है जैसा कि आपकी तस्वीर में लेबल किया गया है। तो, या तो किताब या A3C पेपर गलत है? ज़रुरी नहीं।

कुंजी पी पर है। सटन और बार्टो पुस्तक के 199:

यदि छूट (गामा <1) है, तो इसे समाप्ति के रूप में माना जाना चाहिए, जो कि (9.2) के दूसरे कार्यकाल में एक कारक को शामिल करके किया जा सकता है।

सूक्ष्म मुद्दा यह है कि छूट कारक गामा की दो व्याख्याएँ हैं:

एक गुणक कारक जो दूर के भविष्य के पुरस्कारों पर कम वजन डालता है।
एक संभावना, 1 - गामा, कि एक नकली प्रक्षेपवक्र किसी भी समय कदम पर सहजता से समाप्त हो जाता है। यह व्याख्या केवल एपिसोडिक मामलों के लिए समझ में आती है, न कि निरंतर मामलों के लिए।

शाब्दिक कार्यान्वयन:

भविष्य में गामा द्वारा भविष्य के पुरस्कार और संबंधित मात्रा (वी या क्यू) को गुणा करें।
प्रत्येक समय कदम पर कुछ प्रक्षेपवक्र और बेतरतीब ढंग से (1 - गामा) समाप्त करें। समाप्त किए गए प्रक्षेपवक्र कोई तत्काल या भविष्य के पुरस्कार नहीं देते हैं।

$G \nabla\ln\pi(a|s)$

$\gamma^2 G \nabla\ln\pi(a|s)$ $0.81 G \nabla\ln\pi(a|s)$

$G \nabla\ln\pi(a|s)$ $G$

आप गामा की पूरी व्याख्या चुन सकते हैं, लेकिन आपको एल्गोरिथ्म के परिणामों से सावधान रहना होगा। मैं व्यक्तिगत रूप से व्याख्या 1 के साथ रहना पसंद करता हूं क्योंकि यह सरल है। इसलिए मैं ए -3 सी पेपर में एल्गोरिथ्म का उपयोग करता हूं, न कि सटन और बार्टो किताब का।

आपका प्रश्न REINFORCE एल्गोरिथ्म के बारे में था, लेकिन मैं अभिनेता-आलोचक पर चर्चा कर रहा हूं। आपके पास दो गामा व्याख्याओं और REINFORCE में अतिरिक्त गामा से संबंधित एक ही मुद्दा है।

— toto2
स्रोत