जब एक आउटपुट यूनिट प्रति एक्शन होती है तो न्यूरल नेटवर्क्स के साथ क्यू-लर्निंग कितना कुशल होता है?


9

पृष्ठभूमि:
मैं अपने सुदृढीकरण सीखने के कार्य में तंत्रिका नेटवर्क क्यू-मूल्य सन्निकटन का उपयोग कर रहा हूं। दृष्टिकोण बिल्कुल वैसा ही है जैसा कि इस प्रश्न में वर्णित है , हालांकि यह प्रश्न ही अलग है।

इस दृष्टिकोण में आउटपुट की संख्या उन कार्यों की संख्या है जो हम ले सकते हैं। और सरल शब्दों में, एल्गोरिथ्म निम्नलिखित है: ए क्रिया करें, इनाम का पता लगाएं, एनएन से सभी संभावित क्रियाओं के लिए क्यू मानों की भविष्यवाणी करने के लिए कहें, अधिकतम क्यू मान चुनें, विशेष ए के लिए क्यू की गणना करें R + max(new_state_Q)। फिट मॉडल ने उनमें से केवल एक के साथ क्यू मूल्यों की भविष्यवाणी की R + max(new_state_Q)

प्रश्न: यदि आउटपुट की संख्या बड़ी है, तो यह तरीका कितना कारगर है?

प्रयास करें: मान लें कि हम 10 कार्य कर सकते हैं। प्रत्येक चरण में हम मॉडल से 10 मूल्यों की भविष्यवाणी करने के लिए कहते हैं, मॉडल की प्रारंभिक आयु में यह भविष्यवाणी कुल गड़बड़ है। फिर हम आउटपुट के 1 मूल्य को संशोधित करते हैं और इन मूल्यों पर मॉडल फिट करते हैं।

मेरा दो विपरीत विचार है कि यह दृष्टिकोण कितना अच्छा है / खराब है और यह तय नहीं कर सकता कि कौन सा सही है:

  • एक दृष्टिकोण से, हम प्रत्येक न्यूरॉन को 9 बार यादृच्छिक डेटा पर प्रशिक्षण दे रहे हैं और केवल एक बार डेटा पर जो वास्तविक मूल्य के करीब है। यदि NN ने राज्य S में कार्रवाई A के लिए 5 की भविष्यवाणी की है, लेकिन वास्तविक मूल्य -100 है तो हम NN को मान 5 के साथ 9 बार और फिर एक बार मान -100 के साथ फिट करेंगे। पागल लगता है।
  • अन्य दृष्टिकोण से, तंत्रिका नेटवर्क के सीखने को एक त्रुटि के प्रसार के रूप में कार्यान्वित किया जाता है , इसलिए जब मॉडल ने 5 की भविष्यवाणी की है और हम इसे 5 पर प्रशिक्षण दे रहे हैं तो यह कुछ भी नया नहीं सीखेगा, क्योंकि त्रुटि 0. वज़न को छुआ नहीं है । और केवल जब हम -100 की गणना करेंगे और इसे मॉडल में फिट करेंगे, तो यह भार पुनर्गणना करेगा।

कौन सा विकल्प सही है? शायद कुछ और है जिसे मैं ध्यान में नहीं ले रहा हूं?

अद्यतन: "कितना कुशल" से मेरा मतलब है कि एक आउटपुट के साथ एक दृष्टिकोण की तुलना में - अनुमानित इनाम। बेशक, कार्रवाई इस मामले में इनपुट का एक हिस्सा होगी। इसलिए दृष्टिकोण # 1 कुछ राज्य के आधार पर सभी कार्यों के लिए भविष्यवाणियां करता है, # 2 दृष्टिकोण कुछ राज्य में की गई विशिष्ट कार्रवाई के लिए भविष्यवाणी करता है।


इस प्रश्न का एक निश्चित उत्तर अपने वर्तमान रूप में देना बहुत कठिन है: "यह दृष्टिकोण कितना कुशल है?" खैर, यह निर्भर करता है ... क्या की तुलना में? आप किस वैकल्पिक दृष्टिकोण का प्रस्ताव करेंगे जो अधिक कुशल हो सकता है या नहीं?
डेनिस सॉमरर्स

हाय @DennisSoemers। आपके प्रश्न के लिए धन्यवाद। मैंने अपनी पोस्ट अपडेट कर दी है। मूल रूप से, वैकल्पिक दृष्टिकोण में एक आउटपुट है - इनाम। और सभी संभावित कार्यों के लिए अतिरिक्त एन इनपुट। मुख्य दृष्टिकोण INPUT (राज्य) और OUTPUT (एन कार्यों के लिए एन पुरस्कार) है। वैकल्पिक I (स्टेट + एक्शन) और O (रिवार्ड) है।
सेर्ही

जवाबों:


1

इसलिए हम जिन दो विकल्पों की तुलना करना चाहते हैं वे हैं:

  1. इनपुट्स = राज्य प्रतिनिधित्व, आउटपुट = 1 नोड प्रति क्रिया
  2. इनपुट्स = राज्य प्रतिनिधित्व + क्रियाओं का एक-हॉट एन्कोडिंग, आउटपुट = 1 नोड

अपने स्वयं के अंतर्ज्ञान द्वारा जाने पर, मुझे संदेह है कि उन दो विकल्पों के बीच प्रतिनिधित्व शक्ति या सीखने की गति (पुनरावृत्तियों के संदर्भ में) में एक महत्वपूर्ण अंतर है।

प्रतिनिधित्व शक्ति के लिए, पहला विकल्प इनपुट के पास थोड़ा '' छोटा '' नेटवर्क देता है, और आउटपुट के पास एक '' व्यापक '' नेटवर्क। उदाहरण के लिए इनपुट नोड्स के करीब अधिक वजन होने के लिए जो भी कारण फायदेमंद थे, अगर वह पहली छिपी परत (इनपुट के करीब) को थोड़ा बड़ा करके भी बहुत कुछ हासिल किया जा सकता है।

सीखने की गति के लिए, आप जिस चिंता को महसूस करते हैं, वह मूल रूप से आम तौर पर केवल एक आउटपुट के लिए सटीक सीखने का संकेत है, और दूसरों के लिए नहीं है। दूसरे विकल्प के साथ, हालांकि इनपुट नोड्स से जुड़े भारों के लिए ठीक यही कहा जा सकता है, इसलिए मुझे संदेह है कि वहां एक महत्वपूर्ण अंतर है।

जैसा कि मैंने उल्लेख किया है, उपरोक्त सभी सिर्फ मेरे अंतर्ज्ञान पर आधारित है, हालांकि, उस पर अधिक विश्वसनीय संदर्भ देखना दिलचस्प होगा।

पहला विकल्प जो मैं देख रहा हूँ, वह एक महत्वपूर्ण लाभ है कम्प्यूटेशनल गति में; मान लें कि आप सभी क्रियाओं के लिए अंतराल की गणना करना चाहते हैं ताकि यह तय हो सके कि किस कार्रवाई का चयन करना है; एक ही फ़ॉर्वर्ड नेटवर्क से होकर गुज़रता है, जो आपको एक ही बार में सभी रूल देता है, अलग-अलग फ़ॉर्वर्ड पास (आकार एक एक्शन सेट के लिए ) की तुलना में अधिक कुशल कम्प्यूटेशनल रूप से होगा ।QQnn

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.