जब एक आउटपुट यूनिट प्रति एक्शन होती है तो न्यूरल नेटवर्क्स के साथ क्यू-लर्निंग कितना कुशल होता है?

पृष्ठभूमि:
मैं अपने सुदृढीकरण सीखने के कार्य में तंत्रिका नेटवर्क क्यू-मूल्य सन्निकटन का उपयोग कर रहा हूं। दृष्टिकोण बिल्कुल वैसा ही है जैसा कि इस प्रश्न में वर्णित है , हालांकि यह प्रश्न ही अलग है।

इस दृष्टिकोण में आउटपुट की संख्या उन कार्यों की संख्या है जो हम ले सकते हैं। और सरल शब्दों में, एल्गोरिथ्म निम्नलिखित है: ए क्रिया करें, इनाम का पता लगाएं, एनएन से सभी संभावित क्रियाओं के लिए क्यू मानों की भविष्यवाणी करने के लिए कहें, अधिकतम क्यू मान चुनें, विशेष ए के लिए क्यू की गणना करें R + max(new_state_Q)। फिट मॉडल ने उनमें से केवल एक के साथ क्यू मूल्यों की भविष्यवाणी की R + max(new_state_Q)।

प्रश्न: यदि आउटपुट की संख्या बड़ी है, तो यह तरीका कितना कारगर है?

प्रयास करें: मान लें कि हम 10 कार्य कर सकते हैं। प्रत्येक चरण में हम मॉडल से 10 मूल्यों की भविष्यवाणी करने के लिए कहते हैं, मॉडल की प्रारंभिक आयु में यह भविष्यवाणी कुल गड़बड़ है। फिर हम आउटपुट के 1 मूल्य को संशोधित करते हैं और इन मूल्यों पर मॉडल फिट करते हैं।

मेरा दो विपरीत विचार है कि यह दृष्टिकोण कितना अच्छा है / खराब है और यह तय नहीं कर सकता कि कौन सा सही है:

एक दृष्टिकोण से, हम प्रत्येक न्यूरॉन को 9 बार यादृच्छिक डेटा पर प्रशिक्षण दे रहे हैं और केवल एक बार डेटा पर जो वास्तविक मूल्य के करीब है। यदि NN ने राज्य S में कार्रवाई A के लिए 5 की भविष्यवाणी की है, लेकिन वास्तविक मूल्य -100 है तो हम NN को मान 5 के साथ 9 बार और फिर एक बार मान -100 के साथ फिट करेंगे। पागल लगता है।
अन्य दृष्टिकोण से, तंत्रिका नेटवर्क के सीखने को एक त्रुटि के प्रसार के रूप में कार्यान्वित किया जाता है , इसलिए जब मॉडल ने 5 की भविष्यवाणी की है और हम इसे 5 पर प्रशिक्षण दे रहे हैं तो यह कुछ भी नया नहीं सीखेगा, क्योंकि त्रुटि 0. वज़न को छुआ नहीं है । और केवल जब हम -100 की गणना करेंगे और इसे मॉडल में फिट करेंगे, तो यह भार पुनर्गणना करेगा।

कौन सा विकल्प सही है? शायद कुछ और है जिसे मैं ध्यान में नहीं ले रहा हूं?

अद्यतन: "कितना कुशल" से मेरा मतलब है कि एक आउटपुट के साथ एक दृष्टिकोण की तुलना में - अनुमानित इनाम। बेशक, कार्रवाई इस मामले में इनपुट का एक हिस्सा होगी। इसलिए दृष्टिकोण # 1 कुछ राज्य के आधार पर सभी कार्यों के लिए भविष्यवाणियां करता है, # 2 दृष्टिकोण कुछ राज्य में की गई विशिष्ट कार्रवाई के लिए भविष्यवाणी करता है।

— सेर्ही
स्रोत

इस प्रश्न का एक निश्चित उत्तर अपने वर्तमान रूप में देना बहुत कठिन है: "यह दृष्टिकोण कितना कुशल है?" खैर, यह निर्भर करता है ... क्या की तुलना में? आप किस वैकल्पिक दृष्टिकोण का प्रस्ताव करेंगे जो अधिक कुशल हो सकता है या नहीं?

— डेनिस सॉमरर्स

हाय @DennisSoemers। आपके प्रश्न के लिए धन्यवाद। मैंने अपनी पोस्ट अपडेट कर दी है। मूल रूप से, वैकल्पिक दृष्टिकोण में एक आउटपुट है - इनाम। और सभी संभावित कार्यों के लिए अतिरिक्त एन इनपुट। मुख्य दृष्टिकोण INPUT (राज्य) और OUTPUT (एन कार्यों के लिए एन पुरस्कार) है। वैकल्पिक I (स्टेट + एक्शन) और O (रिवार्ड) है।

— सेर्ही

इसलिए हम जिन दो विकल्पों की तुलना करना चाहते हैं वे हैं:

इनपुट्स = राज्य प्रतिनिधित्व, आउटपुट = 1 नोड प्रति क्रिया
इनपुट्स = राज्य प्रतिनिधित्व + क्रियाओं का एक-हॉट एन्कोडिंग, आउटपुट = 1 नोड

अपने स्वयं के अंतर्ज्ञान द्वारा जाने पर, मुझे संदेह है कि उन दो विकल्पों के बीच प्रतिनिधित्व शक्ति या सीखने की गति (पुनरावृत्तियों के संदर्भ में) में एक महत्वपूर्ण अंतर है।

प्रतिनिधित्व शक्ति के लिए, पहला विकल्प इनपुट के पास थोड़ा '' छोटा '' नेटवर्क देता है, और आउटपुट के पास एक '' व्यापक '' नेटवर्क। उदाहरण के लिए इनपुट नोड्स के करीब अधिक वजन होने के लिए जो भी कारण फायदेमंद थे, अगर वह पहली छिपी परत (इनपुट के करीब) को थोड़ा बड़ा करके भी बहुत कुछ हासिल किया जा सकता है।

सीखने की गति के लिए, आप जिस चिंता को महसूस करते हैं, वह मूल रूप से आम तौर पर केवल एक आउटपुट के लिए सटीक सीखने का संकेत है, और दूसरों के लिए नहीं है। दूसरे विकल्प के साथ, हालांकि इनपुट नोड्स से जुड़े भारों के लिए ठीक यही कहा जा सकता है, इसलिए मुझे संदेह है कि वहां एक महत्वपूर्ण अंतर है।

जैसा कि मैंने उल्लेख किया है, उपरोक्त सभी सिर्फ मेरे अंतर्ज्ञान पर आधारित है, हालांकि, उस पर अधिक विश्वसनीय संदर्भ देखना दिलचस्प होगा।

पहला विकल्प जो मैं देख रहा हूँ, वह एक महत्वपूर्ण लाभ है कम्प्यूटेशनल गति में; मान लें कि आप सभी क्रियाओं के लिए अंतराल की गणना करना चाहते हैं ताकि यह तय हो सके कि किस कार्रवाई का चयन करना है; एक ही फ़ॉर्वर्ड नेटवर्क से होकर गुज़रता है, जो आपको एक ही बार में सभी रूल देता है, अलग-अलग फ़ॉर्वर्ड पास (आकार एक एक्शन सेट के लिए ) की तुलना में अधिक कुशल कम्प्यूटेशनल रूप से होगा । $Q$ $Q$ $n$ $n$

— डेनिस सोमरस
स्रोत