क्या दीपमिन्द का DQN अटारी खेल एक साथ सीख रहा था?


9

डीपमाइंड ने कहा कि उनका गहन क्यू-नेटवर्क (DQN) 49 अटारी खेल खेलने के लिए सीखने के दौरान अपने व्यवहार को लगातार अनुकूलित करने में सक्षम था।

एक ही न्यूरल नेट के साथ सभी गेम सीखने के बाद, क्या एजेंट उन सभी को 'अलौकिक' स्तरों पर एक साथ खेलने में सक्षम था (जब भी इसे बेतरतीब ढंग से किसी एक गेम के साथ प्रस्तुत किया गया था) या यह एक समय में केवल एक गेम में अच्छा हो सकता है क्योंकि स्विचिंग फिर से सीखने की आवश्यकता है?


"एक ही तंत्रिका जाल के साथ सभी खेल सीखने के बाद"। क्या इसका मतलब वही एनएन वास्तुकला या समान वास्तुकला और वजन का एकल सेट है?
अंकुर

@Ankur वास्तव में मुझे यकीन नहीं है - यह मेरी (सीमित) समझ है कि उन्होंने एक ही वास्तुकला का इस्तेमाल किया और खेल के बीच वजन को रीसेट नहीं किया।
डायोन

जवाबों:


2

स्विचिंग के लिए फिर से सीखना आवश्यक है।

यह भी ध्यान दें :

हम सभी सात खेलों में एक ही नेटवर्क आर्किटेक्चर, लर्निंग अल्गोरिदम और हाइपरपरमेटर्स सेटिंग्स का उपयोग करते हैं, यह दिखाते हैं कि खेल-विशिष्ट जानकारी को शामिल किए बिना विभिन्न खेलों पर काम करने के लिए हमारा दृष्टिकोण काफी मजबूत है। जब हमने अपने एजेंटों का मूल्यांकन वास्तविक और असंशोधित खेल पर किया, तो हमने केवल प्रशिक्षण के दौरान खेलों की इनाम संरचना में एक बदलाव किया।

तथा

नेटवर्क ने हमारे द्वारा किए गए सात खेलों में से छह पर पिछले सभी आरएल एल्गोरिदम को बेहतर बनाया है और उनमें से तीन पर एक विशेषज्ञ मानव खिलाड़ी को पार किया है।


1

स्विचिंग के लिए पुनःपूर्ति की आवश्यकता होती है, नेटवर्क में वजन का एक भी सेट नहीं था जो इसे सभी गेम अच्छी तरह से खेलने की अनुमति देता है। यह भयावह भूलने की समस्या के कारण है।

हालाँकि, इस समस्या को दूर करने के लिए हाल ही में काम किया गया है:

"तंत्रिका नेटवर्क में भयावह भूल", 2016

पेपर: https://arxiv.org/pdf/1612.00796v1.pdf

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.