गैर स्थिर वातावरण में सुदृढीकरण सीखना [बंद]


9

Q1: सामान्य रूप से सुदृढीकरण सीखने में गैर स्थिर वातावरण से निपटने के लिए आम या स्वीकृत तरीके हैं?

Q2: मेरे ग्रिडवर्ल्ड में, जब राज्य का दौरा किया जाता है तो मेरे पास रिवॉर्ड फंक्शन बदलते हैं। हर एपिसोड प्रारंभिक अवस्था में रीसेट हो जाता है। मैं चाहता हूं कि मेरा एजेंट सीखें कि "जब तक आपको वास्तव में ज़रूरत न हो, वापस न जाएं", हालांकि यह पर्यावरण को गैर-स्थिर बनाता है। क्या MDP मॉडल में इस सरल नियम को शामिल किया जा सकता है और इसे कैसे किया जाना चाहिए? क्या इस समस्या से निपटने के लिए Q- सीखना सबसे अच्छा उपाय है? कोई सुझाव या उपलब्ध उदाहरण?

Q3: मैं गैर-स्थिर वातावरण से निपटने के समाधान के रूप में अनुभव रीप्ले के साथ क्यू-लर्निंग में देख रहा हूं, क्योंकि यह क्रमिक अपडेट को सुशोभित करता है। क्या यह विधि का सही उपयोग है या यह सीखने को अधिक डेटा कुशल बनाने के लिए अधिक है? और मैंने इसे केवल मूल्य सन्निकटन के साथ उपयोग किया है। मुझे यकीन नहीं हो रहा है कि यह ग्रिडवर्ल्ड की तरह एक साधारण विवेकाधीन राज्य स्थान के लिए उपयोग करने के लिए एक ओवरकिल है, या इसके लिए एक अलग कारण है।

कृपया बेझिझक जवाब दें या टिप्पणी करें, भले ही आप सभी सवालों का जवाब न दें।

जवाबों:


10

Q1: सामान्य रूप से सुदृढीकरण सीखने में गैर स्थिर वातावरण से निपटने के लिए आम या स्वीकृत तरीके हैं?

अधिकांश बुनियादी आरएल एजेंट ऑनलाइन हैं, और ऑनलाइन शिक्षण आमतौर पर गैर-स्थिर समस्याओं से निपट सकते हैं। इसके अलावा, नियंत्रण समस्याओं में राज्य मूल्य और कार्रवाई मूल्य आकलनकर्ताओं के लिए अद्यतन नियम आमतौर पर गैर-स्थिर लक्ष्यों के लिए लिखे जाते हैं, क्योंकि नीति में सुधार होते ही लक्ष्य पहले से ही बदल जाते हैं। यह कुछ भी जटिल नहीं है, बस सीखने की दर का उपयोग करेंα अपडेट में जब मूल्यों का आकलन किया जाता है, तो प्रभावी ढंग से एक रोलिंग ज्योमेट्रिक का मतलब होता है, जो सभी इतिहासों को एक अनकहे फैशन में औसत करने का विरोध करता है।

हालाँकि , यह लंबे समय तक गैर-स्टेशनरिटी को संबोधित करता है, जैसे कि एपिसोड के बीच बदलने में समस्या, या इससे भी अधिक समय के पैमाने पर। आपका वर्णन और अधिक लग रहा है जैसे आप एजेंट द्वारा की गई कार्रवाई के आधार पर इनाम संरचना को बदलना चाहते हैं, थोड़े समय के भीतर। क्रियाओं की गतिशील प्रतिक्रिया को एक और अधिक जटिल एमडीपी के रूप में बेहतर रूप से तैयार किया गया है, न कि एक सरल एमडीपी के भीतर "गैर-स्थिरता" के रूप में।

एक एजेंट उस वातावरण में परिवर्तन नहीं सीख सकता है जिसे उसने अभी तक नमूना नहीं लिया है, इसलिए इनाम की संरचना को बदलने से एजेंट पहले से देखे गए राज्यों में वापस नहीं आएगा। जब तक आप एजेंट में RNN जैसी किसी चीज का उपयोग नहीं कर रहे हैं, तब तक एजेंट के पास वर्तमान स्थिति में जो कुछ भी दर्शाया जाता है, उसके अलावा एपिसोड में जो कुछ भी हुआ है उसकी "मेमोरी" नहीं होगी (यकीनन RNN का उपयोग करने से RNN भाग की छिपी परत बन जाती है राज्य की)। एक से अधिक प्रकरणों के अलावा, यदि आप एक सारणीबद्ध Q- शिक्षण एजेंट का उपयोग करते हैं, तो एजेंट बस यह जान लेगा कि कुछ निश्चित राज्यों का मूल्य कम है, यह सीखने में सक्षम नहीं होगा कि राज्य में दूसरी या तीसरी यात्राएं उस प्रभाव का कारण बनती हैं, क्योंकि इसकी कोई आवश्यकता नहीं है उस ज्ञान का प्रतिनिधित्व करने का तरीका। यह ऑनलाइन और मिड-एपिसोड सीखने के लिए तेजी से बदलाव को समायोजित करने में सक्षम नहीं होगा।

Q2: मेरे ग्रिडवर्ल्ड में, जब राज्य का दौरा किया जाता है तो मेरे पास रिवॉर्ड फंक्शन बदलते हैं। मैं चाहता हूं कि मेरा एजेंट सीखें कि "जब तक आपको वास्तव में ज़रूरत न हो, वापस न जाएं", हालांकि यह पर्यावरण को गैर-स्थिर बनाता है।

यदि यह सब आपको सीखने के लिए एजेंट की आवश्यकता है, तो शायद यह एक उपयुक्त इनाम संरचना द्वारा प्रोत्साहित किया जा सकता है। इससे पहले कि आप ऐसा कर सकें, आपको खुद को समझने की ज़रूरत है कि "वास्तव में" का अर्थ क्या है, और तार्किक रूप से कितना तंग होना चाहिए। आप ठीक हो सकते हैं, हालांकि एजेंट द्वारा पहले से ही या हाल ही में दौरा किए गए किसी भी स्थान पर जाने के लिए कुछ जुर्माना देकर।

क्या MDP मॉडल में इस सरल नियम को शामिल किया जा सकता है और इसे कैसे किया जाना चाहिए?

हां, आपको राज्य में विज़िट किए गए स्थानों की जानकारी जोड़नी चाहिए। यह तुरंत आपके राज्य मॉडल को एक साधारण ग्रिड दुनिया की तुलना में अधिक जटिल बना देगा, जिससे समस्या की गतिशीलता बढ़ जाएगी, लेकिन यह अपरिहार्य है। अधिकांश वास्तविक दुनिया की समस्याएं आरएल अवधारणाओं को सिखाने के लिए प्रदान किए गए खिलौना उदाहरणों को बहुत तेज़ी से आगे बढ़ाती हैं।

एक विकल्प समस्या को आंशिक रूप से अवलोकन मार्कोव निर्णय प्रक्रिया (POMDP) ​​के रूप में फ्रेम करना है । उस स्थिति में "सही" स्थिति में अभी भी पुरस्कारों की गणना करने के लिए सभी आवश्यक इतिहास शामिल होंगे (और जैसा कि यह एक कंप्यूटर पर एक खिलौना समस्या है जिसे आपको अभी भी किसी तरह इसका प्रतिनिधित्व करना होगा), लेकिन एजेंट प्रतिबंधित से सीखने का प्रयास कर सकता है राज्य का ज्ञान, जो भी आप इसे निरीक्षण करते हैं। सामान्य तौर पर यह राज्य के प्रतिनिधित्व का विस्तार करने की तुलना में बहुत कठिन दृष्टिकोण है, और मैं यहां इसकी सिफारिश नहीं करूंगा। हालाँकि, यदि आपको यह विचार रोचक लगता है, तो आप POMDPs का पता लगाने के लिए अपनी समस्या का उपयोग कर सकते हैं। यहां हाल ही में एक पेपर (Google की डीप माइंड टीम, 2015 से) POMDPs को हल करने के लिए RNN के साथ संयुक्त दो RL एल्गोरिदम को देखता है।

Q3: मैं गैर-स्थिर वातावरण से निपटने के समाधान के रूप में अनुभव रीप्ले के साथ क्यू-लर्निंग में देख रहा हूं, क्योंकि यह क्रमिक अपडेट को सुशोभित करता है। क्या यह विधि का सही उपयोग है या यह सीखने को अधिक डेटा कुशल बनाने के लिए अधिक है?

गैर-स्थिर वातावरण के साथ अनुभव रिप्ले मदद नहीं करेगा। वास्तव में यह उनके प्रदर्शन को और खराब कर सकता है। हालांकि, जैसा कि पहले ही कहा गया है, आपकी समस्या वास्तव में एक गैर-स्थिर वातावरण के बारे में नहीं है, बल्कि अधिक जटिल राज्य गतिकी को संभालने के बारे में है।

क्या आप कर सकते हैं क्या करने की जरूरत समारोह सन्निकटन में नज़र है, अगर एक बड़ा पर्याप्त संख्या के लिए राज्यों की संख्या बढ़ जाती। उदाहरण के लिए, यदि आप किसी भी बैक-ट्रैकिंग को संभालना चाहते हैं और एक जटिल इनाम-संशोधित नियम है जो प्रत्येक विज़िट किए गए स्थान को ट्रैक करता है, तो आपका राज्य एकल स्थान संख्या से मैप किए गए स्थानों को दिखाने वाले नक्शे में बदल सकता है। तो उदाहरण के लिए यह से जा सकता है64 राज्यों के लिए ए 8×8 ग्रिड वर्ल्ड टू ए 264राज्य के नक्शे का दौरा किया वर्गों दिखा। यह मूल्य तालिका में ट्रैक करने के लिए बहुत अधिक है, इसलिए आप आमतौर पर राज्य के मूल्यों का अनुमान लगाने के लिए एक तंत्रिका नेटवर्क (या एक दृढ़ तंत्रिका नेटवर्क) का उपयोग करेंगे।

एक फ़ंक्शन अनुमानक के साथ, अनुभव रिप्ले बहुत उपयोगी है, क्योंकि इसके बिना, सीखने की प्रक्रिया अस्थिर होने की संभावना है। अटारी गेम खेलने के लिए हाल ही में DQN दृष्टिकोण इस कारण से अनुभव रिप्ले का उपयोग करता है।


यदि पर्यावरण गैर-स्थिर है, तो आप इस तथ्य से कैसे निपटते हैं कि, ग्रिड वर्ल्ड उदाहरण में, समय t = 1 पर राज्य में होना t = 2 पर उस स्थिति में होने के समान नहीं है? यदि आप उन्हें अलग राज्यों के रूप में मानते हैं तो निश्चित रूप से आपके राज्य स्थान की गतिशीलता बस विस्फोट हो जाएगी?
trytolearn

@tryingtolearn: एक मार्कोव राज्य का पूरा बिंदु यह है कि यह सभी महत्वपूर्ण विवरणों को कैप्चर करता है कि एमडीपी उस बिंदु से कैसे आगे बढ़ेगा। आमतौर पर t = 1 पर राज्य में होने की संभावना भविष्य के इनाम और राज्य के संक्रमण के संदर्भ में t = 2 पर एक ही राज्य में होने से अलग नहीं है । यदि आप नियमों के साथ हवा करते हैं जो कि टी के मूल्य पर आधारित हैं, तो आप टी को राज्य में डालते हैं। ऐसा हो सकता है यदि आपको किसी भी समय कदम पर इनाम मिल सकता है, लेकिन समय कदमों की संख्या सीमित है - उदाहरण के लिए एपिसोड हमेशा t = 10 पर समाप्त होता है। उस स्थिति में आपका शेष समय जानना महत्वपूर्ण हो सकता है
नील स्लेटर

@NeilSlater क्या आप अपने जवाब में POMDP और RNN विचारों पर विस्तार कर सकते हैं? वे दिलचस्प लगते हैं। और यदि संभव हो, तो पुनर्नवीनीकरण स्रोत दें क्योंकि कभी-कभी साहित्य को नेविगेट करना कठिन होता है। मुझे वास्तव में विज़िट किए गए राज्यों के अनुक्रम को रखने का विचार पसंद नहीं है, हालांकि यह एकमात्र ऐसी चीज है जिसके बारे में मैं अब तक सोच सकता था, इसलिए मैं अन्य विकल्पों की तलाश कर रहा हूं। मॉडल उस तरह से अधूरा हो जाता है, जिसे देखते हुए मुझे एक बहुत ही सरल नियम लागू करना होगा। मुझे यकीन नहीं है कि अगर मुझे कुछ स्पष्ट याद आ रहा है या मैं सिर्फ सही मॉडल और सूत्रीकरण का उपयोग नहीं कर रहा हूं।
वोल्ट्रोनिका

@NeilSlater नीति-ढाल विधियों जैसी चीजों का उपयोग करके क्या यह मदद नहीं की जा सकती है? व्यवहार में, क्या आपको पता है कि इस तरह की समस्याओं को हल करने के लिए मानक क्या है?
प्रातः

1
@ पोलट्रॉनिका I ने POMDPs के बारे में एक अनुच्छेद जोड़कर उत्तर का विस्तार किया। ध्यान दें कि POMDP के रूप में आपकी समस्या को हल करने के लिए बहुत मुश्किल है कि वह काम करने के लिए कठिन हो और राज्य का विस्तार करने के बजाय हल किए गए स्थानों की उपयुक्त मेमोरी को शामिल कर सके। इसलिए मेरा सुझाव है कि आप केवल इस बात पर ध्यान दें कि यदि POMDPs का अध्ययन करना एक लक्ष्य है।
नील स्लेटर

0

क्यू 1: क्यू लर्निंग एक ऑनलाइन सुदृढीकरण सीखने का एल्गोरिथ्म है जो स्थिर वातावरण के साथ अच्छी तरह से काम करता है। यह एक गैर-स्थिर मॉडल के साथ इस शर्त के साथ भी इस्तेमाल किया जा सकता है कि मॉडल (इनाम समारोह और संक्रमण संभावनाएं) तेजी से नहीं बदलता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.