rl-an-introduction पर टैग किए गए जवाब

3
REINFORCE एल्गोरिथ्म में छूट की दर दो बार क्यों दिखाई देती है?
मैं रेनफोर्स लर्निंग: एन इंट्रोडक्शन बाय रिचर्ड एस सटन और एंड्रयू जी बार्टो (पूरा मसौदा, 5 नवंबर, 2017) किताब पढ़ रहा था । पृष्ठ 271 पर, एपिसोडिक मोंटे-कार्लो पॉलिसी-ग्रैडिएंट विधि के लिए छद्म कोड प्रस्तुत किया गया है। इस छद्म कोड को देखकर मैं समझ नहीं पा रहा हूं कि …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.