मैं (डीप) सुदृढीकरण लर्निंग (आरएल) में रुचि रखता हूं । इस क्षेत्र में गोता लगाने से पहले मुझे गेम थ्योरी (जीटी) में एक कोर्स करना चाहिए ?
जीटी और आरएल कैसे संबंधित हैं?
मैं (डीप) सुदृढीकरण लर्निंग (आरएल) में रुचि रखता हूं । इस क्षेत्र में गोता लगाने से पहले मुझे गेम थ्योरी (जीटी) में एक कोर्स करना चाहिए ?
जीटी और आरएल कैसे संबंधित हैं?
जवाबों:
सुदृढीकरण सीखना (आरएल) में एक अंतर्निहित मार्कोव निर्णय प्रक्रिया (एमडीपी) की कल्पना करना आम है। फिर आरएल का लक्ष्य एमडीपी के लिए एक अच्छी नीति सीखना है, जो अक्सर आंशिक रूप से निर्दिष्ट होती है। एमडीपी के अलग-अलग उद्देश्य हो सकते हैं जैसे कुल, औसत या रियायती इनाम, जहां रियायती इनाम आरएल के लिए सबसे आम धारणा है। दो-खिलाड़ी (यानी, गेम) सेटिंग्स में एमडीपी के अच्छी तरह से अध्ययन किए गए एक्सटेंशन हैं; देखें, जैसे,
फ़िलर, जेरज़ी और कोस व्रीज़। प्रतिस्पर्धी मार्कोव निर्णय प्रक्रियाएं । स्प्रिंगर साइंस एंड बिजनेस मीडिया, 2012।
एमडीपी और उनके एक्सटेंशन टू-प्लेयर (जीरो-सम) गेम्स द्वारा साझा किया गया एक अंतर्निहित सिद्धांत है, जिसमें, उदाहरण के लिए, बानच निश्चित बिंदु प्रमेय, वैल्यू इटरेशन, बेलमैन ऑप्टिमिलिटी, पॉलिसी इटरेशन / स्ट्रैटेजी इम्प्रूवमेंट आदि शामिल हैं, जबकि हैं एमडीपी (और इस प्रकार आरएल) और इन विशिष्ट प्रकार के खेलों के बीच घनिष्ठ संबंध:
गेम-सिद्धांत बहु-एजेंट सुदृढीकरण सीखने (MARL) के संदर्भ में काफी शामिल है।
स्टोचस्टिक गेम पर एक नज़र डालें या लेख पढ़ें एक विश्लेषण स्टोचैस्टिक गेम थ्योरी फॉर मल्टीएजेंट रिफोर्समेंट लर्निंग ।
मैं जीटी को आरएल के लिए एक शर्त के रूप में नहीं देखूंगा। हालाँकि, यह मल्टी-एजेंट के मामले में एक अच्छा विस्तार प्रदान करता है।
आरएल: एक एकल एजेंट को मार्कोव निर्णय समस्या (एमडीपीएस) को हल करने के लिए प्रशिक्षित किया जाता है। जीटी: खेलों को हल करने के लिए दो एजेंटों को प्रशिक्षित किया जाता है। स्टोकेस्टिक गेम को हल करने के लिए मल्टी-एजेंट रिइनफोर्समेंट लर्निंग (MARL) का उपयोग किया जा सकता है।
यदि आप गहन शिक्षण में आरएल के एकल-एजेंट अनुप्रयोग में रुचि रखते हैं, तो आपको किसी भी जीटी पाठ्यक्रम के लिए जाने की आवश्यकता नहीं है। दो या दो से अधिक एजेंटों के लिए आपको खेल-सिद्धांत संबंधी तकनीकों को जानने की आवश्यकता हो सकती है।