3
REINFORCE एल्गोरिथ्म में छूट की दर दो बार क्यों दिखाई देती है?
मैं रेनफोर्स लर्निंग: एन इंट्रोडक्शन बाय रिचर्ड एस सटन और एंड्रयू जी बार्टो (पूरा मसौदा, 5 नवंबर, 2017) किताब पढ़ रहा था । पृष्ठ 271 पर, एपिसोडिक मोंटे-कार्लो पॉलिसी-ग्रैडिएंट विधि के लिए छद्म कोड प्रस्तुत किया गया है। इस छद्म कोड को देखकर मैं समझ नहीं पा रहा हूं कि …