खेल सिद्धांत और सुदृढीकरण सीखने के बीच क्या संबंध है?


12

मैं (डीप) सुदृढीकरण लर्निंग (आरएल) में रुचि रखता हूं । इस क्षेत्र में गोता लगाने से पहले मुझे गेम थ्योरी (जीटी) में एक कोर्स करना चाहिए ?

जीटी और आरएल कैसे संबंधित हैं?


2
वे हथौड़ों और व्हीप्ड क्रीम के रूप में करीब से संबंधित हैं। आप शायद एक समस्या पा सकते हैं जहां आप दोनों का उपयोग कर सकते हैं, लेकिन यह आम नहीं है।
डॉन रेबा

4
@ डोनरेबा रीइनफोर्समेंट लर्निंग में दो प्रसिद्ध शोधकर्ताओं के अनुसार नहीं: udacity.com/course/… मुझे लगता है कि गेम थ्योरी आपको बताती है कि इष्टतम नीति क्या है, जबकि आरएल आपको बताता है कि एजेंट कैसे इष्टतम या एक अच्छी नीति सीख सकते हैं
किहुंम

3
@DonReba, शायद उन सामान्य सामग्री के संदर्भ में जो उन्हें सिखाई जाती हैं। हालांकि, दो क्षेत्रों के उद्देश्य इतने अलग नहीं हैं। सुदृढीकरण सीखने को अपूर्ण सूचना के खेल के रूप में देखा जा सकता है, अक्सर एक खिलाड़ी के लिए। या दो खिलाड़ी के खेल के रूप में, जिसमें अन्य खिलाड़ी, प्रकृति, आपके द्वारा खोजे जाने वाले नियमों का एक सेट अनुसरण करता है।
conjectures

1
यह शैक्षिक था। :)
डॉन रेबा

जवाबों:


12

सुदृढीकरण सीखना (आरएल) में एक अंतर्निहित मार्कोव निर्णय प्रक्रिया (एमडीपी) की कल्पना करना आम है। फिर आरएल का लक्ष्य एमडीपी के लिए एक अच्छी नीति सीखना है, जो अक्सर आंशिक रूप से निर्दिष्ट होती है। एमडीपी के अलग-अलग उद्देश्य हो सकते हैं जैसे कुल, औसत या रियायती इनाम, जहां रियायती इनाम आरएल के लिए सबसे आम धारणा है। दो-खिलाड़ी (यानी, गेम) सेटिंग्स में एमडीपी के अच्छी तरह से अध्ययन किए गए एक्सटेंशन हैं; देखें, जैसे,

फ़िलर, जेरज़ी और कोस व्रीज़। प्रतिस्पर्धी मार्कोव निर्णय प्रक्रियाएं । स्प्रिंगर साइंस एंड बिजनेस मीडिया, 2012।

एमडीपी और उनके एक्सटेंशन टू-प्लेयर (जीरो-सम) गेम्स द्वारा साझा किया गया एक अंतर्निहित सिद्धांत है, जिसमें, उदाहरण के लिए, बानच निश्चित बिंदु प्रमेय, वैल्यू इटरेशन, बेलमैन ऑप्टिमिलिटी, पॉलिसी इटरेशन / स्ट्रैटेजी इम्प्रूवमेंट आदि शामिल हैं, जबकि हैं एमडीपी (और इस प्रकार आरएल) और इन विशिष्ट प्रकार के खेलों के बीच घनिष्ठ संबंध:

  • आप बिना किसी शर्त के जीटी के बिना सीधे आरएल (और एमडीपी) के बारे में जान सकते हैं;
  • वैसे भी, आप इस सामान के बारे में जीटी पाठ्यक्रमों के बहुमत के बारे में नहीं सीखेंगे (जो आमतौर पर ध्यान केंद्रित किया जाएगा, उदाहरण के लिए, रणनीतिक-रूप, व्यापक रूप, और दोहराया खेल, लेकिन एमडीपी को सामान्य बनाने वाले राज्य-आधारित अनंत खेल नहीं)।

6

गेम-सिद्धांत बहु-एजेंट सुदृढीकरण सीखने (MARL) के संदर्भ में काफी शामिल है।

स्टोचस्टिक गेम पर एक नज़र डालें या लेख पढ़ें एक विश्लेषण स्टोचैस्टिक गेम थ्योरी फॉर मल्टीएजेंट रिफोर्समेंट लर्निंग

मैं जीटी को आरएल के लिए एक शर्त के रूप में नहीं देखूंगा। हालाँकि, यह मल्टी-एजेंट के मामले में एक अच्छा विस्तार प्रदान करता है।


0

आरएल: एक एकल एजेंट को मार्कोव निर्णय समस्या (एमडीपीएस) को हल करने के लिए प्रशिक्षित किया जाता है। जीटी: खेलों को हल करने के लिए दो एजेंटों को प्रशिक्षित किया जाता है। स्टोकेस्टिक गेम को हल करने के लिए मल्टी-एजेंट रिइनफोर्समेंट लर्निंग (MARL) का उपयोग किया जा सकता है।

यदि आप गहन शिक्षण में आरएल के एकल-एजेंट अनुप्रयोग में रुचि रखते हैं, तो आपको किसी भी जीटी पाठ्यक्रम के लिए जाने की आवश्यकता नहीं है। दो या दो से अधिक एजेंटों के लिए आपको खेल-सिद्धांत संबंधी तकनीकों को जानने की आवश्यकता हो सकती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.