रीइनफोर्समेंट लर्निंग (आरएल) में राज्य प्रतिनिधित्व की समस्या सुविधा प्रतिनिधित्व, सुविधा चयन और पर्यवेक्षित सीखने में सुविधा इंजीनियरिंग और फीचर इंजीनियरिंग की समस्याओं के समान है।
साहित्य जो आरएल की मूल बातें सिखाता है वह बहुत ही सरल वातावरण का उपयोग करता है ताकि सभी राज्यों की गणना की जा सके। यह एक तालिका में मूल रोलिंग औसत में मूल्य अनुमानों को सरल करता है, जो समझने और लागू करने में आसान होते हैं। सारणीबद्ध शिक्षण एल्गोरिदम में अभिसरण की उचित सैद्धांतिक गारंटी भी होती है, जिसका अर्थ है कि यदि आप अपनी समस्या को सरल बना सकते हैं, तो यह है कि, कुछ मिलियन राज्यों की तुलना में कम है, तो यह कोशिश करने योग्य है।
अधिकांश दिलचस्प नियंत्रण समस्याएं राज्यों की उस संख्या में फिट नहीं होंगी, भले ही आप उन्हें समझें। यह " आयामीता के अभिशाप " के कारण है । उन समस्याओं के लिए, आप आमतौर पर विभिन्न विशेषताओं के वेक्टर के रूप में अपने राज्य का प्रतिनिधित्व करेंगे - उदाहरण के लिए एक रोबोट, विभिन्न पदों, कोण, यांत्रिक भागों के वेग। पर्यवेक्षित अधिगम के साथ, आप विशिष्ट शिक्षण प्रक्रिया के साथ इनका उपयोग करना चाहते हैं। उदाहरण के लिए, आमतौर पर आप उन सभी को संख्यात्मक होना चाहते हैं, और यदि आप एक तंत्रिका नेटवर्क का उपयोग करना चाहते हैं, तो आपको उन्हें एक मानक श्रेणी (जैसे -1 से 1) के लिए भी सामान्य करना चाहिए।
उपरोक्त चिंताओं के अलावा, जो अन्य मशीन लर्निंग के लिए लागू होती हैं, आरएल के लिए, आपको मार्कोव प्रॉपर्टी से भी चिंतित होने की आवश्यकता है - कि राज्य पर्याप्त जानकारी प्रदान करता है, ताकि आप सटीक रूप से अपेक्षित अगले पुरस्कारों की भविष्यवाणी कर सकें और अगले राज्यों ने एक कार्रवाई दी, किसी भी अतिरिक्त जानकारी की आवश्यकता के बिना। यह सही होने की जरूरत नहीं है, एक पहिया रोबोट के लिए वायु घनत्व या तापमान में बदलाव की वजह से छोटे अंतर आमतौर पर इसके नेविगेशन पर एक बड़ा प्रभाव नहीं होगा, और इसे नजरअंदाज किया जा सकता है। कोई भी कारक जो अनिवार्य रूप से यादृच्छिक है, उसे आरएल सिद्धांत से चिपके हुए भी नजरअंदाज किया जा सकता है - यह एजेंट को समग्र रूप से कम इष्टतम बना सकता है, लेकिन सिद्धांत अभी भी काम करेगा।
यदि परिणाम को प्रभावित करने वाले लगातार अज्ञात कारक हैं, और तार्किक रूप से कटौती की जा सकती है - शायद राज्य या कार्यों के इतिहास से - लेकिन आपने उन्हें राज्य के प्रतिनिधित्व से बाहर रखा है, तो आपको अधिक गंभीर समस्या हो सकती है, और एजेंट सीखने में विफल हो सकता है ।
यह अवलोकन और राज्य के बीच के अंतर को ध्यान देने योग्य है । एक अवलोकन कुछ डेटा है जिसे आप एकत्र कर सकते हैं। उदाहरण के लिए, आपके पास अपने रोबोट पर सेंसर हो सकते हैं जो उसके जोड़ों की स्थिति को वापस खिलाते हैं। क्योंकि राज्य के पास मार्कोव संपत्ति होनी चाहिए, एक उपयुक्त निरीक्षण करने के लिए एक एकल कच्चा अवलोकन पर्याप्त डेटा नहीं हो सकता है। यदि ऐसा है, तो आप उपलब्ध डेटा से बेहतर स्थिति के निर्माण के लिए या तो अपने डोमेन ज्ञान को लागू कर सकते हैं, या आप आंशिक रूप से अवलोकनीय MDPs (POMDPs) के लिए डिज़ाइन की गई तकनीकों का उपयोग करने का प्रयास कर सकते हैं - ये प्रभावी रूप से राज्य डेटा के लापता भागों के निर्माण का प्रयास करते हैं सांख्यिकीय। आप इसके लिए एक आरएनएन या छिपे हुए मार्कोव मॉडल (जिसे "विश्वास राज्य" भी कहा जाता है) का उपयोग कर सकते हैं, और किसी तरह से यह "उपयोग कर रहा है"जैसा कि आपने पूछा उन राज्यों को "सीखना" के लिए एल्गोरिदम सीखना या वर्गीकरण करना ।
अंत में, आपको उस अनुमानित मॉडल के प्रकार पर विचार करने की आवश्यकता है जिसे आप उपयोग करना चाहते हैं। पर्यवेक्षित अधिगम के लिए एक समान दृष्टिकोण यहाँ लागू होता है:
डोमेन ज्ञान पर आधारित सुविधाओं के साथ एक सरल रैखिक प्रतिगमन बहुत अच्छा कर सकता है। आपको अलग-अलग राज्य अभ्यावेदन की कोशिश करने के लिए कड़ी मेहनत करने की आवश्यकता हो सकती है ताकि रैखिक सन्निकटन काम करे। लाभ यह है कि यह सरल दृष्टिकोण गैर-रैखिक सन्निकटन की तुलना में स्थिरता के मुद्दों के खिलाफ अधिक मजबूत है
मल्टी लेयर न्यूरल नेटवर्क जैसे अधिक जटिल गैर-रेखीय फ़ंक्शन सन्निकटन। आप अधिक "कच्चे" राज्य वेक्टर में फ़ीड कर सकते हैं और आशा करते हैं कि छिपी हुई परतें कुछ संरचना या प्रतिनिधित्व पाएंगी जो अच्छे अनुमानों की ओर ले जाती हैं। कुछ मायनों में, यह "उन राज्यों को सीखने" के लिए एल्गोरिदम सीखना या वर्गीकरण है , लेकिन एक आरएनएन या एचएमएम के लिए एक अलग तरीके से। यह एक समझदार दृष्टिकोण हो सकता है यदि आपका राज्य स्वाभाविक रूप से एक स्क्रीन छवि के रूप में व्यक्त किया गया था - हाथ से छवि डेटा के लिए फीचर इंजीनियरिंग का पता लगाना बहुत कठिन है।
DeepMind द्वारा अटारी DQN काम टीम सुविधा इंजीनियरिंग का एक संयोजन का इस्तेमाल किया और उसके परिणाम प्राप्त करने के गहरी तंत्रिका नेटवर्क पर निर्भर। फीचर इंजीनियरिंग में छवि को डाउनसम्पलिंग करना, इसे ग्रे-स्केल पर कम करना और - महत्वपूर्ण रूप से मार्कोव संपत्ति के लिए - एक एकल राज्य का प्रतिनिधित्व करने के लिए लगातार चार फ्रेम का उपयोग करना शामिल था, ताकि वस्तुओं के वेग के बारे में जानकारी राज्य प्रतिनिधित्व में मौजूद थी। DNN ने छवियों को उच्च-स्तरीय विशेषताओं में संसाधित किया, जिनका उपयोग राज्य मूल्यों के बारे में भविष्यवाणियां करने के लिए किया जा सकता है।