क्या दीपमिन्द का DQN अटारी खेल एक साथ सीख रहा था?

9

डीपमाइंड ने कहा कि उनका गहन क्यू-नेटवर्क (DQN) 49 अटारी खेल खेलने के लिए सीखने के दौरान अपने व्यवहार को लगातार अनुकूलित करने में सक्षम था।

एक ही न्यूरल नेट के साथ सभी गेम सीखने के बाद, क्या एजेंट उन सभी को 'अलौकिक' स्तरों पर एक साथ खेलने में सक्षम था (जब भी इसे बेतरतीब ढंग से किसी एक गेम के साथ प्रस्तुत किया गया था) या यह एक समय में केवल एक गेम में अच्छा हो सकता है क्योंकि स्विचिंग फिर से सीखने की आवश्यकता है?

neural-networks deep-learning deepmind

— डायोन
स्रोत

"एक ही तंत्रिका जाल के साथ सभी खेल सीखने के बाद"। क्या इसका मतलब वही एनएन वास्तुकला या समान वास्तुकला और वजन का एकल सेट है?

— अंकुर

@Ankur वास्तव में मुझे यकीन नहीं है - यह मेरी (सीमित) समझ है कि उन्होंने एक ही वास्तुकला का इस्तेमाल किया और खेल के बीच वजन को रीसेट नहीं किया।

— डायोन

2

स्विचिंग के लिए फिर से सीखना आवश्यक है।

यह भी ध्यान दें :

हम सभी सात खेलों में एक ही नेटवर्क आर्किटेक्चर, लर्निंग अल्गोरिदम और हाइपरपरमेटर्स सेटिंग्स का उपयोग करते हैं, यह दिखाते हैं कि खेल-विशिष्ट जानकारी को शामिल किए बिना विभिन्न खेलों पर काम करने के लिए हमारा दृष्टिकोण काफी मजबूत है। जब हमने अपने एजेंटों का मूल्यांकन वास्तविक और असंशोधित खेल पर किया, तो हमने केवल प्रशिक्षण के दौरान खेलों की इनाम संरचना में एक बदलाव किया।

तथा

नेटवर्क ने हमारे द्वारा किए गए सात खेलों में से छह पर पिछले सभी आरएल एल्गोरिदम को बेहतर बनाया है और उनमें से तीन पर एक विशेषज्ञ मानव खिलाड़ी को पार किया है।

— फ्रेंक डर्नोनकोर्ट
स्रोत

1

स्विचिंग के लिए पुनःपूर्ति की आवश्यकता होती है, नेटवर्क में वजन का एक भी सेट नहीं था जो इसे सभी गेम अच्छी तरह से खेलने की अनुमति देता है। यह भयावह भूलने की समस्या के कारण है।

हालाँकि, इस समस्या को दूर करने के लिए हाल ही में काम किया गया है:

"तंत्रिका नेटवर्क में भयावह भूल", 2016

पेपर: https://arxiv.org/pdf/1612.00796v1.pdf

— सिफ़र
स्रोत