मैं Google का दीपमिन्द अटारी पेपर पढ़ रहा हूँ और मैं "अनुभव फिर से खेलना" की अवधारणा को समझने की कोशिश कर रहा हूँ। अनुभव फिर से खेलना कई अन्य सुदृढीकरण सीखने के कागजात (विशेषकर, अल्फा गो पेपर) में आता है, इसलिए मैं समझना चाहता हूं कि यह कैसे काम करता है। नीचे कुछ अंश दिए गए हैं।
सबसे पहले, हमने एक जैविक रूप से प्रेरित तंत्र कहा जाता है जो अनुभव रिप्ले को डेटा पर यादृच्छिक बनाता है, जिससे अवलोकन अनुक्रम में सहसंबंधों को दूर किया जाता है और डेटा वितरण में परिवर्तन पर चौरसाई होती है।
फिर कागज इस प्रकार है:
जबकि सुदृढीकरण सीखने की सेटिंग में तंत्रिका नेटवर्क के प्रशिक्षण के लिए अन्य स्थिर तरीके मौजूद हैं, जैसे कि तंत्रिका फिट क्यू-पुनरावृत्ति, इन विधियों में पुनरावृत्तियों के नेटवर्क डे नोवो सैकड़ों पुनरावृत्तियों का प्रशिक्षण शामिल है । नतीजतन, हमारे एल्गोरिथ्म के विपरीत, ये विधियां बड़े तंत्रिका नेटवर्क के साथ सफलतापूर्वक उपयोग करने के लिए बहुत अक्षम हैं। हम अंजीर में दिखाए गए गहरे तंत्रिका नेटवर्क का उपयोग करते हुए अनुमानित मान फ़ंक्शन का करते हैं, जिसमें पर - , Q- नेटवर्क के पैरामीटर (यानी, भार) हैं । अनुभव पुनरावृत्ति करने के लिए, हम एजेंट के अनुभवों को प्रत्येक समय-चरण करते हैंडी टी = { ई 1 , ... , ई टी } ( रों , एक , आर , एस ' ) ~ यू ( डी ) मैंडेटा सेट में । सीखने के दौरान, हम अनुभव नमूनों (या मिनी-बैचों) पर क्यू-लर्निंग अपडेट लागू करते हैं, संग्रहीत नमूनों के पूल से यादृच्छिक रूप से समान रूप से खींचा जाता है। Q- अधिगम अद्यतन पुनरावृत्ति निम्नलिखित हानि फ़ंक्शन का उपयोग करता है:
अनुभव पुनरावृत्ति क्या है, और इसके फायदे, आम आदमी की शर्तों में क्या हैं?