REINFORCE एल्गोरिथ्म में छूट की दर दो बार क्यों दिखाई देती है?


11

मैं रेनफोर्स लर्निंग: एन इंट्रोडक्शन बाय रिचर्ड एस सटन और एंड्रयू जी बार्टो (पूरा मसौदा, 5 नवंबर, 2017) किताब पढ़ रहा था ।

पृष्ठ 271 पर, एपिसोडिक मोंटे-कार्लो पॉलिसी-ग्रैडिएंट विधि के लिए छद्म कोड प्रस्तुत किया गया है। इस छद्म कोड को देखकर मैं समझ नहीं पा रहा हूं कि ऐसा क्यों लगता है कि छूट की दर 2 बार, अद्यतन स्थिति में एक बार और वापसी के अंदर दूसरी बार दिखाई देती है। [नीचे आंकड़ा देखें]

यहाँ छवि विवरण दर्ज करें

ऐसा लगता है कि चरण 1 के बाद के चरणों के लिए वापसी केवल पहले चरण की वापसी का एक छंटनी है। इसके अलावा, यदि आप पुस्तक में सिर्फ एक पृष्ठ ऊपर देखते हैं तो आपको केवल 1 छूट दर (रिटर्न के अंदर एक) के साथ एक समीकरण मिलता है।

तब छद्म कोड अलग क्यों लगता है? मेरा अनुमान है कि मैं कुछ गलत समझ रहा हूं:

(13.6)θt+1 =˙ θt+αGtθπ(At|St,θt)π(At|St,θt).

जवाबों:


5

छूट कारक दो बार दिखाई देता है, और यह सही है।

ऐसा इसलिए है क्योंकि आप जिस कार्य को एक समस्या के लिए REINFORCE में अधिकतम करने की कोशिश कर रहे हैं (ग्रेडिएंट ले कर) एक दिए गए राज्य से वितरण का अपेक्षित प्रतिफल (वितरण) है:

J(θ)=Eπ(θ)[Gt|St=s0,t=0]

इसलिए, एपिसोड के दौरान, जब आप रिटर्न , जी 2 आदि का नमूना लेते हैं , तो ये आपके द्वारा हल की जाने वाली समस्या से कम प्रासंगिक होंगे, छूट कारक द्वारा दूसरी बार कम करने पर जैसा कि आपने नोट किया। एक प्रासंगिक समस्या और साथ चरम पर γ = 0 तो सुदृढ़ केवल पहली कार्रवाई के लिए एक इष्टतम नीति मिल जाएगा।G1G2γ=0

अन्य एल्गोरिदम, इस तरह के लिए अभिनेता-समालोचक उपयोग विभिन्न योगों के रूप में निरंतर समस्याओं, में उस कार्य को , इसलिए की है कि कारक नहीं है γ टीJ(θ)γt


5

नील का जवाब पहले से ही क्यों स्यूडोकोड (अतिरिक्त के साथ करने के लिए के रूप में कुछ अंतर्ज्ञान प्रदान करता है अवधि) सही है।γt

मैं इसके अतिरिक्त स्पष्ट करना चाहूंगा कि आपको कुछ भी गलत नहीं लगता है, पुस्तक में समीकरण (13.6) वास्तव में छद्मकोश से अलग है

अब, मेरे पास उस पुस्तक का संस्करण नहीं है जिसका आपने यहां उल्लेख किया है, लेकिन मेरे पास 22 मार्च, 2018 से बाद का मसौदा है, और इस विशेष विषय पर पाठ समान है। इस संस्करण में:

  • γ=1
  • यह प्रमाण अंततः 329 पृष्ठ पर उसी समीकरण (13.6) की ओर जाता है।
  • γ=1
  • γ<1

2
धन्यवाद। आपके तीसरे बिंदु की व्याख्या 2017 के मसौदे पर गायब थी।
डिएगो ओरेलाना

2
@DiegoOrellana मुझे अब 22 मार्च के ड्राफ्ट का लिंक नहीं मिल रहा है, यहां एक बाद का ड्राफ्ट (उल्लेखित तारीख नहीं मिल सकता है) प्रतीत होता है । इस संस्करण में वास्तव में एक फैंसी कवर है, इसलिए यह ड्राफ्ट के बजाय अंतिम संस्करण भी हो सकता है। यदि भविष्य में लिंक टूट गया, तो मुझे संदेह है कि एक नया लिंक यहां उपलब्ध कराया जाएगा ।
डेनिस सॉमर

3

यह एक सूक्ष्म मुद्दा है।

यदि आप A3C एल्गोरिथ्म को मूल पेपर (p.4 और परिशिष्ट S3 के लिए छद्म कोड) में देखते हैं, तो उनके अभिनेता-आलोचक एल्गोरिथ्म (समान एल्गोरिथ्म दोनों एपिसोड और निरंतर समस्याएं) अभिनेता के सापेक्ष गामा के एक कारक से दूर है- सटन और Barto किताब में प्रासंगिक समस्याओं के लिए आलोचक छद्म कोड (जनवरी 2019 संस्करण के p.332 http://incompleteideas.net/book/the-book.html )। सटन और बार्टो पुस्तक में अतिरिक्त "पहला" गामा है जैसा कि आपकी तस्वीर में लेबल किया गया है। तो, या तो किताब या A3C पेपर गलत है? ज़रुरी नहीं।

कुंजी पी पर है। सटन और बार्टो पुस्तक के 199:

यदि छूट (गामा <1) है, तो इसे समाप्ति के रूप में माना जाना चाहिए, जो कि (9.2) के दूसरे कार्यकाल में एक कारक को शामिल करके किया जा सकता है।

सूक्ष्म मुद्दा यह है कि छूट कारक गामा की दो व्याख्याएँ हैं:

  1. एक गुणक कारक जो दूर के भविष्य के पुरस्कारों पर कम वजन डालता है।
  2. एक संभावना, 1 - गामा, कि एक नकली प्रक्षेपवक्र किसी भी समय कदम पर सहजता से समाप्त हो जाता है। यह व्याख्या केवल एपिसोडिक मामलों के लिए समझ में आती है, न कि निरंतर मामलों के लिए।

शाब्दिक कार्यान्वयन:

  1. भविष्य में गामा द्वारा भविष्य के पुरस्कार और संबंधित मात्रा (वी या क्यू) को गुणा करें।
  2. प्रत्येक समय कदम पर कुछ प्रक्षेपवक्र और बेतरतीब ढंग से (1 - गामा) समाप्त करें। समाप्त किए गए प्रक्षेपवक्र कोई तत्काल या भविष्य के पुरस्कार नहीं देते हैं।

Glnπ(a|s)

γ2Glnπ(a|s)0.81Glnπ(a|s)

Glnπ(a|s)G

आप गामा की पूरी व्याख्या चुन सकते हैं, लेकिन आपको एल्गोरिथ्म के परिणामों से सावधान रहना होगा। मैं व्यक्तिगत रूप से व्याख्या 1 के साथ रहना पसंद करता हूं क्योंकि यह सरल है। इसलिए मैं ए -3 सी पेपर में एल्गोरिथ्म का उपयोग करता हूं, न कि सटन और बार्टो किताब का।

आपका प्रश्न REINFORCE एल्गोरिथ्म के बारे में था, लेकिन मैं अभिनेता-आलोचक पर चर्चा कर रहा हूं। आपके पास दो गामा व्याख्याओं और REINFORCE में अतिरिक्त गामा से संबंधित एक ही मुद्दा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.