गहन क्यू लर्निंग में एपिसोड और एपोक के बीच अंतर क्या है?


14

मैं प्रसिद्ध पेपर "प्ले अटारी विथ डीप रिनफोर्स लर्निंग" ( पीडीएफ ) को समझने की कोशिश कर रहा हूं । मैं एक युग और प्रकरण के बीच के अंतर के बारे में स्पष्ट नहीं हूं । एल्गोरिथ्म , बाहरी लूप एपिसोड से अधिक है , जबकि आकृति में एक्स-एक्सिस को एपोच लेबल किया गया है । सुदृढीकरण सीखने के संदर्भ में, मैं स्पष्ट नहीं हूं कि एक युग का क्या अर्थ है। एपिसोड लूप के चारों ओर एक बाहरी लूप है? 12

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें


1
तो ... कितने एपिसोड एक युग बनाते हैं?
ल्यूवेन

जवाबों:


10
  • एक प्रकरण = राज्यों, कार्यों और पुरस्कारों का एक क्रम, जो टर्मिनल राज्य के साथ समाप्त होता है। उदाहरण के लिए, एक पूरे खेल को एक एपिसोड के रूप में माना जा सकता है, जब एक खिलाड़ी हारता / जीतता है तो टर्मिनल राज्य तक पहुंच जाता है। शायद ही कभी, कोई एक प्रकरण को कई खेलों के रूप में परिभाषित करना पसंद कर सकता है ( उदाहरण : "प्रत्येक एपिसोड कुछ दर्जन खेल हैं, क्योंकि खेल किसी भी खिलाड़ी के लिए 21 के स्कोर तक जाते हैं")।
  • एक युग = तंत्रिका नेटवर्क शब्दावली में सभी प्रशिक्षण उदाहरणों में से एक फॉरवर्ड पास और एक बैकवर्ड पास।

आपके द्वारा उल्लिखित कागज में, वे युग के अर्थ के बारे में अधिक लचीले प्रतीत होते हैं, क्योंकि वे केवल एक युग को एक निश्चित मात्रा में वजन अपडेट के रूप में परिभाषित करते हैं। इसलिए आप एपिसोड लूप के चारों ओर एक बाहरी लूप के रूप में देख सकते हैं, जैसा कि आपने प्रश्न में उल्लेख किया है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.