Q1: सामान्य रूप से सुदृढीकरण सीखने में गैर स्थिर वातावरण से निपटने के लिए आम या स्वीकृत तरीके हैं?
अधिकांश बुनियादी आरएल एजेंट ऑनलाइन हैं, और ऑनलाइन शिक्षण आमतौर पर गैर-स्थिर समस्याओं से निपट सकते हैं। इसके अलावा, नियंत्रण समस्याओं में राज्य मूल्य और कार्रवाई मूल्य आकलनकर्ताओं के लिए अद्यतन नियम आमतौर पर गैर-स्थिर लक्ष्यों के लिए लिखे जाते हैं, क्योंकि नीति में सुधार होते ही लक्ष्य पहले से ही बदल जाते हैं। यह कुछ भी जटिल नहीं है, बस सीखने की दर का उपयोग करेंα अपडेट में जब मूल्यों का आकलन किया जाता है, तो प्रभावी ढंग से एक रोलिंग ज्योमेट्रिक का मतलब होता है, जो सभी इतिहासों को एक अनकहे फैशन में औसत करने का विरोध करता है।
हालाँकि , यह लंबे समय तक गैर-स्टेशनरिटी को संबोधित करता है, जैसे कि एपिसोड के बीच बदलने में समस्या, या इससे भी अधिक समय के पैमाने पर। आपका वर्णन और अधिक लग रहा है जैसे आप एजेंट द्वारा की गई कार्रवाई के आधार पर इनाम संरचना को बदलना चाहते हैं, थोड़े समय के भीतर। क्रियाओं की गतिशील प्रतिक्रिया को एक और अधिक जटिल एमडीपी के रूप में बेहतर रूप से तैयार किया गया है, न कि एक सरल एमडीपी के भीतर "गैर-स्थिरता" के रूप में।
एक एजेंट उस वातावरण में परिवर्तन नहीं सीख सकता है जिसे उसने अभी तक नमूना नहीं लिया है, इसलिए इनाम की संरचना को बदलने से एजेंट पहले से देखे गए राज्यों में वापस नहीं आएगा। जब तक आप एजेंट में RNN जैसी किसी चीज का उपयोग नहीं कर रहे हैं, तब तक एजेंट के पास वर्तमान स्थिति में जो कुछ भी दर्शाया जाता है, उसके अलावा एपिसोड में जो कुछ भी हुआ है उसकी "मेमोरी" नहीं होगी (यकीनन RNN का उपयोग करने से RNN भाग की छिपी परत बन जाती है राज्य की)। एक से अधिक प्रकरणों के अलावा, यदि आप एक सारणीबद्ध Q- शिक्षण एजेंट का उपयोग करते हैं, तो एजेंट बस यह जान लेगा कि कुछ निश्चित राज्यों का मूल्य कम है, यह सीखने में सक्षम नहीं होगा कि राज्य में दूसरी या तीसरी यात्राएं उस प्रभाव का कारण बनती हैं, क्योंकि इसकी कोई आवश्यकता नहीं है उस ज्ञान का प्रतिनिधित्व करने का तरीका। यह ऑनलाइन और मिड-एपिसोड सीखने के लिए तेजी से बदलाव को समायोजित करने में सक्षम नहीं होगा।
Q2: मेरे ग्रिडवर्ल्ड में, जब राज्य का दौरा किया जाता है तो मेरे पास रिवॉर्ड फंक्शन बदलते हैं। मैं चाहता हूं कि मेरा एजेंट सीखें कि "जब तक आपको वास्तव में ज़रूरत न हो, वापस न जाएं", हालांकि यह पर्यावरण को गैर-स्थिर बनाता है।
यदि यह सब आपको सीखने के लिए एजेंट की आवश्यकता है, तो शायद यह एक उपयुक्त इनाम संरचना द्वारा प्रोत्साहित किया जा सकता है। इससे पहले कि आप ऐसा कर सकें, आपको खुद को समझने की ज़रूरत है कि "वास्तव में" का अर्थ क्या है, और तार्किक रूप से कितना तंग होना चाहिए। आप ठीक हो सकते हैं, हालांकि एजेंट द्वारा पहले से ही या हाल ही में दौरा किए गए किसी भी स्थान पर जाने के लिए कुछ जुर्माना देकर।
क्या MDP मॉडल में इस सरल नियम को शामिल किया जा सकता है और इसे कैसे किया जाना चाहिए?
हां, आपको राज्य में विज़िट किए गए स्थानों की जानकारी जोड़नी चाहिए। यह तुरंत आपके राज्य मॉडल को एक साधारण ग्रिड दुनिया की तुलना में अधिक जटिल बना देगा, जिससे समस्या की गतिशीलता बढ़ जाएगी, लेकिन यह अपरिहार्य है। अधिकांश वास्तविक दुनिया की समस्याएं आरएल अवधारणाओं को सिखाने के लिए प्रदान किए गए खिलौना उदाहरणों को बहुत तेज़ी से आगे बढ़ाती हैं।
एक विकल्प समस्या को आंशिक रूप से अवलोकन मार्कोव निर्णय प्रक्रिया (POMDP) के रूप में फ्रेम करना है । उस स्थिति में "सही" स्थिति में अभी भी पुरस्कारों की गणना करने के लिए सभी आवश्यक इतिहास शामिल होंगे (और जैसा कि यह एक कंप्यूटर पर एक खिलौना समस्या है जिसे आपको अभी भी किसी तरह इसका प्रतिनिधित्व करना होगा), लेकिन एजेंट प्रतिबंधित से सीखने का प्रयास कर सकता है राज्य का ज्ञान, जो भी आप इसे निरीक्षण करते हैं। सामान्य तौर पर यह राज्य के प्रतिनिधित्व का विस्तार करने की तुलना में बहुत कठिन दृष्टिकोण है, और मैं यहां इसकी सिफारिश नहीं करूंगा। हालाँकि, यदि आपको यह विचार रोचक लगता है, तो आप POMDPs का पता लगाने के लिए अपनी समस्या का उपयोग कर सकते हैं। यहां हाल ही में एक पेपर (Google की डीप माइंड टीम, 2015 से) POMDPs को हल करने के लिए RNN के साथ संयुक्त दो RL एल्गोरिदम को देखता है।
Q3: मैं गैर-स्थिर वातावरण से निपटने के समाधान के रूप में अनुभव रीप्ले के साथ क्यू-लर्निंग में देख रहा हूं, क्योंकि यह क्रमिक अपडेट को सुशोभित करता है। क्या यह विधि का सही उपयोग है या यह सीखने को अधिक डेटा कुशल बनाने के लिए अधिक है?
गैर-स्थिर वातावरण के साथ अनुभव रिप्ले मदद नहीं करेगा। वास्तव में यह उनके प्रदर्शन को और खराब कर सकता है। हालांकि, जैसा कि पहले ही कहा गया है, आपकी समस्या वास्तव में एक गैर-स्थिर वातावरण के बारे में नहीं है, बल्कि अधिक जटिल राज्य गतिकी को संभालने के बारे में है।
क्या आप कर सकते हैं क्या करने की जरूरत समारोह सन्निकटन में नज़र है, अगर एक बड़ा पर्याप्त संख्या के लिए राज्यों की संख्या बढ़ जाती। उदाहरण के लिए, यदि आप किसी भी बैक-ट्रैकिंग को संभालना चाहते हैं और एक जटिल इनाम-संशोधित नियम है जो प्रत्येक विज़िट किए गए स्थान को ट्रैक करता है, तो आपका राज्य एकल स्थान संख्या से मैप किए गए स्थानों को दिखाने वाले नक्शे में बदल सकता है। तो उदाहरण के लिए यह से जा सकता है64 राज्यों के लिए ए 8 × 8 ग्रिड वर्ल्ड टू ए 264राज्य के नक्शे का दौरा किया वर्गों दिखा। यह मूल्य तालिका में ट्रैक करने के लिए बहुत अधिक है, इसलिए आप आमतौर पर राज्य के मूल्यों का अनुमान लगाने के लिए एक तंत्रिका नेटवर्क (या एक दृढ़ तंत्रिका नेटवर्क) का उपयोग करेंगे।
एक फ़ंक्शन अनुमानक के साथ, अनुभव रिप्ले बहुत उपयोगी है, क्योंकि इसके बिना, सीखने की प्रक्रिया अस्थिर होने की संभावना है। अटारी गेम खेलने के लिए हाल ही में DQN दृष्टिकोण इस कारण से अनुभव रिप्ले का उपयोग करता है।