पृष्ठभूमि:
मैं अपने सुदृढीकरण सीखने के कार्य में तंत्रिका नेटवर्क क्यू-मूल्य सन्निकटन का उपयोग कर रहा हूं। दृष्टिकोण बिल्कुल वैसा ही है जैसा कि इस प्रश्न में वर्णित है , हालांकि यह प्रश्न ही अलग है।
इस दृष्टिकोण में आउटपुट की संख्या उन कार्यों की संख्या है जो हम ले सकते हैं। और सरल शब्दों में, एल्गोरिथ्म निम्नलिखित है: ए क्रिया करें, इनाम का पता लगाएं, एनएन से सभी संभावित क्रियाओं के लिए क्यू मानों की भविष्यवाणी करने के लिए कहें, अधिकतम क्यू मान चुनें, विशेष ए के लिए क्यू की गणना करें R + max(new_state_Q)
। फिट मॉडल ने उनमें से केवल एक के साथ क्यू मूल्यों की भविष्यवाणी की R + max(new_state_Q)
।
प्रश्न: यदि आउटपुट की संख्या बड़ी है, तो यह तरीका कितना कारगर है?
प्रयास करें: मान लें कि हम 10 कार्य कर सकते हैं। प्रत्येक चरण में हम मॉडल से 10 मूल्यों की भविष्यवाणी करने के लिए कहते हैं, मॉडल की प्रारंभिक आयु में यह भविष्यवाणी कुल गड़बड़ है। फिर हम आउटपुट के 1 मूल्य को संशोधित करते हैं और इन मूल्यों पर मॉडल फिट करते हैं।
मेरा दो विपरीत विचार है कि यह दृष्टिकोण कितना अच्छा है / खराब है और यह तय नहीं कर सकता कि कौन सा सही है:
- एक दृष्टिकोण से, हम प्रत्येक न्यूरॉन को 9 बार यादृच्छिक डेटा पर प्रशिक्षण दे रहे हैं और केवल एक बार डेटा पर जो वास्तविक मूल्य के करीब है। यदि NN ने राज्य S में कार्रवाई A के लिए 5 की भविष्यवाणी की है, लेकिन वास्तविक मूल्य -100 है तो हम NN को मान 5 के साथ 9 बार और फिर एक बार मान -100 के साथ फिट करेंगे। पागल लगता है।
- अन्य दृष्टिकोण से, तंत्रिका नेटवर्क के सीखने को एक त्रुटि के प्रसार के रूप में कार्यान्वित किया जाता है , इसलिए जब मॉडल ने 5 की भविष्यवाणी की है और हम इसे 5 पर प्रशिक्षण दे रहे हैं तो यह कुछ भी नया नहीं सीखेगा, क्योंकि त्रुटि 0. वज़न को छुआ नहीं है । और केवल जब हम -100 की गणना करेंगे और इसे मॉडल में फिट करेंगे, तो यह भार पुनर्गणना करेगा।
कौन सा विकल्प सही है? शायद कुछ और है जिसे मैं ध्यान में नहीं ले रहा हूं?
अद्यतन: "कितना कुशल" से मेरा मतलब है कि एक आउटपुट के साथ एक दृष्टिकोण की तुलना में - अनुमानित इनाम। बेशक, कार्रवाई इस मामले में इनपुट का एक हिस्सा होगी। इसलिए दृष्टिकोण # 1 कुछ राज्य के आधार पर सभी कार्यों के लिए भविष्यवाणियां करता है, # 2 दृष्टिकोण कुछ राज्य में की गई विशिष्ट कार्रवाई के लिए भविष्यवाणी करता है।