सुदृढीकरण सीखने में राज्यों को कैसे परिभाषित किया जाए?


14

मैं सुदृढीकरण सीखने और इसके प्रकारों का अध्ययन कर रहा हूं। मैं यह समझने की शुरुआत कर रहा हूं कि एल्गोरिदम कैसे काम करते हैं और वे एमडीपी पर कैसे लागू होते हैं। मुझे समझ में नहीं आता कि एमडीपी के राज्यों को परिभाषित करने की प्रक्रिया क्या है। अधिकांश उदाहरणों और ट्यूटोरियल में, वे एक ग्रिड या इसी तरह के वर्ग में कुछ सरल का प्रतिनिधित्व करते हैं।

अधिक जटिल समस्याओं के लिए, जैसे कि चलना सीखने वाला रोबोट आदि, आप उन राज्यों को परिभाषित करने के बारे में कैसे जाते हैं? क्या आप उन राज्यों को "सीखने" के लिए लर्निंग या वर्गीकरण एल्गोरिदम का उपयोग कर सकते हैं?

जवाबों:


14

रीइनफोर्समेंट लर्निंग (आरएल) में राज्य प्रतिनिधित्व की समस्या सुविधा प्रतिनिधित्व, सुविधा चयन और पर्यवेक्षित सीखने में सुविधा इंजीनियरिंग और फीचर इंजीनियरिंग की समस्याओं के समान है।

साहित्य जो आरएल की मूल बातें सिखाता है वह बहुत ही सरल वातावरण का उपयोग करता है ताकि सभी राज्यों की गणना की जा सके। यह एक तालिका में मूल रोलिंग औसत में मूल्य अनुमानों को सरल करता है, जो समझने और लागू करने में आसान होते हैं। सारणीबद्ध शिक्षण एल्गोरिदम में अभिसरण की उचित सैद्धांतिक गारंटी भी होती है, जिसका अर्थ है कि यदि आप अपनी समस्या को सरल बना सकते हैं, तो यह है कि, कुछ मिलियन राज्यों की तुलना में कम है, तो यह कोशिश करने योग्य है।

अधिकांश दिलचस्प नियंत्रण समस्याएं राज्यों की उस संख्या में फिट नहीं होंगी, भले ही आप उन्हें समझें। यह " आयामीता के अभिशाप " के कारण है । उन समस्याओं के लिए, आप आमतौर पर विभिन्न विशेषताओं के वेक्टर के रूप में अपने राज्य का प्रतिनिधित्व करेंगे - उदाहरण के लिए एक रोबोट, विभिन्न पदों, कोण, यांत्रिक भागों के वेग। पर्यवेक्षित अधिगम के साथ, आप विशिष्ट शिक्षण प्रक्रिया के साथ इनका उपयोग करना चाहते हैं। उदाहरण के लिए, आमतौर पर आप उन सभी को संख्यात्मक होना चाहते हैं, और यदि आप एक तंत्रिका नेटवर्क का उपयोग करना चाहते हैं, तो आपको उन्हें एक मानक श्रेणी (जैसे -1 से 1) के लिए भी सामान्य करना चाहिए।

उपरोक्त चिंताओं के अलावा, जो अन्य मशीन लर्निंग के लिए लागू होती हैं, आरएल के लिए, आपको मार्कोव प्रॉपर्टी से भी चिंतित होने की आवश्यकता है - कि राज्य पर्याप्त जानकारी प्रदान करता है, ताकि आप सटीक रूप से अपेक्षित अगले पुरस्कारों की भविष्यवाणी कर सकें और अगले राज्यों ने एक कार्रवाई दी, किसी भी अतिरिक्त जानकारी की आवश्यकता के बिना। यह सही होने की जरूरत नहीं है, एक पहिया रोबोट के लिए वायु घनत्व या तापमान में बदलाव की वजह से छोटे अंतर आमतौर पर इसके नेविगेशन पर एक बड़ा प्रभाव नहीं होगा, और इसे नजरअंदाज किया जा सकता है। कोई भी कारक जो अनिवार्य रूप से यादृच्छिक है, उसे आरएल सिद्धांत से चिपके हुए भी नजरअंदाज किया जा सकता है - यह एजेंट को समग्र रूप से कम इष्टतम बना सकता है, लेकिन सिद्धांत अभी भी काम करेगा।

यदि परिणाम को प्रभावित करने वाले लगातार अज्ञात कारक हैं, और तार्किक रूप से कटौती की जा सकती है - शायद राज्य या कार्यों के इतिहास से - लेकिन आपने उन्हें राज्य के प्रतिनिधित्व से बाहर रखा है, तो आपको अधिक गंभीर समस्या हो सकती है, और एजेंट सीखने में विफल हो सकता है ।

यह अवलोकन और राज्य के बीच के अंतर को ध्यान देने योग्य है । एक अवलोकन कुछ डेटा है जिसे आप एकत्र कर सकते हैं। उदाहरण के लिए, आपके पास अपने रोबोट पर सेंसर हो सकते हैं जो उसके जोड़ों की स्थिति को वापस खिलाते हैं। क्योंकि राज्य के पास मार्कोव संपत्ति होनी चाहिए, एक उपयुक्त निरीक्षण करने के लिए एक एकल कच्चा अवलोकन पर्याप्त डेटा नहीं हो सकता है। यदि ऐसा है, तो आप उपलब्ध डेटा से बेहतर स्थिति के निर्माण के लिए या तो अपने डोमेन ज्ञान को लागू कर सकते हैं, या आप आंशिक रूप से अवलोकनीय MDPs (POMDPs) के लिए डिज़ाइन की गई तकनीकों का उपयोग करने का प्रयास कर सकते हैं - ये प्रभावी रूप से राज्य डेटा के लापता भागों के निर्माण का प्रयास करते हैं सांख्यिकीय। आप इसके लिए एक आरएनएन या छिपे हुए मार्कोव मॉडल (जिसे "विश्वास राज्य" भी कहा जाता है) का उपयोग कर सकते हैं, और किसी तरह से यह "उपयोग कर रहा है"जैसा कि आपने पूछा उन राज्यों को "सीखना" के लिए एल्गोरिदम सीखना या वर्गीकरण करना

अंत में, आपको उस अनुमानित मॉडल के प्रकार पर विचार करने की आवश्यकता है जिसे आप उपयोग करना चाहते हैं। पर्यवेक्षित अधिगम के लिए एक समान दृष्टिकोण यहाँ लागू होता है:

  • डोमेन ज्ञान पर आधारित सुविधाओं के साथ एक सरल रैखिक प्रतिगमन बहुत अच्छा कर सकता है। आपको अलग-अलग राज्य अभ्यावेदन की कोशिश करने के लिए कड़ी मेहनत करने की आवश्यकता हो सकती है ताकि रैखिक सन्निकटन काम करे। लाभ यह है कि यह सरल दृष्टिकोण गैर-रैखिक सन्निकटन की तुलना में स्थिरता के मुद्दों के खिलाफ अधिक मजबूत है

  • मल्टी लेयर न्यूरल नेटवर्क जैसे अधिक जटिल गैर-रेखीय फ़ंक्शन सन्निकटन। आप अधिक "कच्चे" राज्य वेक्टर में फ़ीड कर सकते हैं और आशा करते हैं कि छिपी हुई परतें कुछ संरचना या प्रतिनिधित्व पाएंगी जो अच्छे अनुमानों की ओर ले जाती हैं। कुछ मायनों में, यह "उन राज्यों को सीखने" के लिए एल्गोरिदम सीखना या वर्गीकरण है , लेकिन एक आरएनएन या एचएमएम के लिए एक अलग तरीके से। यह एक समझदार दृष्टिकोण हो सकता है यदि आपका राज्य स्वाभाविक रूप से एक स्क्रीन छवि के रूप में व्यक्त किया गया था - हाथ से छवि डेटा के लिए फीचर इंजीनियरिंग का पता लगाना बहुत कठिन है।

DeepMind द्वारा अटारी DQN काम टीम सुविधा इंजीनियरिंग का एक संयोजन का इस्तेमाल किया और उसके परिणाम प्राप्त करने के गहरी तंत्रिका नेटवर्क पर निर्भर। फीचर इंजीनियरिंग में छवि को डाउनसम्पलिंग करना, इसे ग्रे-स्केल पर कम करना और - महत्वपूर्ण रूप से मार्कोव संपत्ति के लिए - एक एकल राज्य का प्रतिनिधित्व करने के लिए लगातार चार फ्रेम का उपयोग करना शामिल था, ताकि वस्तुओं के वेग के बारे में जानकारी राज्य प्रतिनिधित्व में मौजूद थी। DNN ने छवियों को उच्च-स्तरीय विशेषताओं में संसाधित किया, जिनका उपयोग राज्य मूल्यों के बारे में भविष्यवाणियां करने के लिए किया जा सकता है।


3

मॉडलिंग की जटिल समस्याओं के लिए एक आम प्रारंभिक दृष्टिकोण विवेक था । बुनियादी स्तर पर, यह एक जटिल और निरंतर स्थान को ग्रिड में विभाजित कर रहा है। फिर आप किसी भी क्लासिक आरएल तकनीकों का उपयोग कर सकते हैं जो असतत, रैखिक, रिक्त स्थान के लिए डिज़ाइन किए गए हैं। हालांकि, जैसा कि आप कल्पना कर सकते हैं, अगर आप सावधान नहीं हैं, तो यह बहुत परेशानी पैदा कर सकता है!

सटन और बार्टो की क्लासिक पुस्तक रेनफोर्स लर्निंग ने इस बारे में जाने के अन्य तरीकों के लिए कुछ सुझाव दिए हैं। एक टाइल कोडिंग है , जो नए, दूसरे संस्करण के खंड 9.5.4 में शामिल है । टाइल कोडिंग में, हम बड़ी संख्या में ग्रिड उत्पन्न करते हैं, प्रत्येक अलग ग्रिड स्पेसिंग के साथ। हम फिर एक दूसरे के ऊपर ग्रिड को ओवरले करते हैं। यह असतत क्षेत्रों को गैर-समान आकार बनाता है, और विभिन्न समस्याओं के लिए अच्छी तरह से काम कर सकता है।

धारा 9.5 में असतत एमडीपी में एक निरंतर स्थान को एनकोड करने के लिए कई अन्य तरीके भी शामिल हैं, जिसमें रेडियल-आधार फ़ंक्शंस और मोटे कोडिंग शामिल हैं। इसकी जांच - पड़ताल करें!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.