कागज में DQN " डीप रेनफोर्समेंट लर्निंग के साथ अटारी खेलना " का उल्लेख किया गया है:
ध्यान दें कि जब अनुभव रिप्ले से सीखते हैं, तो ऑफ-पॉलिसी सीखना आवश्यक है (क्योंकि हमारे वर्तमान पैरामीटर नमूना उत्पन्न करने के लिए उपयोग किए जाने वाले अलग हैं), जो क्यू-लर्निंग की पसंद को प्रेरित करता है।
मुझे इसका मतलब समझ में नहीं आया। क्या होगा यदि हम SARSA का उपयोग करते हैं और उस क्रिया के a'
लिए कार्रवाई को याद करते हैं जिसे हम s'
अपनी मेमोरी में लेने वाले हैं , और फिर उससे बैचों को सैंपल करते हैं और Q को अपडेट करते हैं जैसे हमने DQN में किया था? और, क्या अभिनेता-आलोचक तरीके (A3C, विशिष्ट के लिए) अनुभव रिप्ले का उपयोग कर सकते हैं? यदि नहीं, तो क्यों?
(s, a, r, s')
, और इस अनुभव को फिर से खेलना है; अब मान लीजिए कि मेरे वर्तमान नीति के अनुसार आपके लिए ले जाना चाहिएa'
परs'
, तो मैं निशानQ(s, a)
होना चाहिएr + Q(s', a')
और ढाल वंश है। मुझे लगता है कि मैं ऑन-पॉलिसी को दोबारा करने का अनुभव कर रहा हूं। क्या प्रक्रिया में कोई समस्या है?