मैं खुद के खिलाफ खेलकर इंजन को बेहतर बनाने के लिए सुदृढीकरण सीखने का उपयोग करना चाहूंगा। मैं विषय के बारे में पढ़ रहा हूं लेकिन मैं अभी भी काफी उलझन में हूं।
सावधान रहें: सुदृढीकरण सीखना एक बड़ा जटिल विषय है। हालाँकि यह आपको गेम खेलने वाले बॉट्स से अलग कर सकता है, आप आरएल बेसिक्स का अध्ययन करना चाह सकते हैं। शुरू करने के लिए एक अच्छी जगह है सूटन और बार्टो सुदृढीकरण सीखना: एक परिचय
एक गेम में जीत-हार-हार आउटपुट (1 या 0) का क्या अन्य इनाम है?
आप खेल के आधार पर, यह आमतौर पर है। वास्तव में शतरंज की तरह एक जीत / ड्रॉ / हार के लिए तो प्रत्येक कार्रवाई से इनाम अंत में जीतने (+1) या हारने (-1) को छोड़कर 0 है। एक शून्य-राशि के खेल में तो यह न्यूनतम रूप से अलंकृत, अल्फ़ाबेटे प्रूनिंग आदि में संरेखित होता है।
सुदृढीकरण सीखने का उद्देश्य विलंबित पुरस्कारों के साथ वातावरण को संबोधित करना है। अंतरिम गैर-लक्ष्यों के लिए "सहायक" पुरस्कार जोड़ना आमतौर पर प्रति-उत्पादक है।
यदि मैं प्रत्येक मोड़ पर मूल्यांकन समारोह से आउटपुट की तरह अन्य पुरस्कारों का उपयोग करता हूं, तो मैं इसे कैसे लागू कर सकता हूं?
आमतौर पर आप नहीं करते। सेल्फ-प्लेइंग आरएल क्या करेगा, यह रिटर्न (कभी-कभी उपयोगिता कहा जाता है ) फ़ंक्शन सीखता है जो गेम के अंत तक आपके कुल + 1/0 / -1 इनाम की उम्मीद की भविष्यवाणी करता है। आप मिनिमैक्स खोज के लिए अपने वर्तमान अनुमान के स्थान पर इसका उपयोग करेंगे। या, संभवतः आप अपने वर्तमान हेयुरिस्टिक फ़ंक्शन को एक ही रेंज में आउटपुट करने के लिए समायोजित करेंगे और आरएल का उपयोग करके अपने वज़न को ऑप्टिमाइज़ करने के लिए सही इष्टतम प्ले रिटर्न फ़ंक्शन (जो कि वास्तव में गणना करने के लिए संभवतः बहुत जटिल है) को सर्वश्रेष्ठ सन्निकटन बना देगा।
मैं पुनरावृत्ति के बाद बेहतर पुरस्कार पुनरावृत्ति देने के लिए मूल्यांकन समारोह को कैसे संशोधित करूं?
यही कारण है कि विभिन्न आरएल करने के लिए सभी प्रयास करते हैं, विभिन्न सॉल्वर की एक किस्म होती है। इसे समझाने का कोई छोटा रास्ता नहीं है। आप क्यू-लर्निंग जैसी सरल विधि से शुरुआत कर सकते हैं । क्यू-लर्निंग, क्यू (ए) (एक्शन वैल्यू कहा जाता है) के अनुमानों को सीखता है जो कि राज्य में एस और एक्शन लेने के बाद अपेक्षित रिटर्न होता है और उसके बाद एक इष्टतम पॉलिसी का पालन करता है। यह शुरू करने के लिए एक मनमाना अनुमान लगाता है और इसे सीखने के माहौल में किए गए प्रत्येक चरण के साथ वास्तविक मूल्य के करीब परिष्कृत करता है। सरल सारणीबद्ध क्यू-शिक्षार्थी इस शोधन को केवल सभी राज्यों और कार्यों की एक बड़ी तालिका को सही मूल्य के अब तक के सबसे अच्छे अनुमान के साथ संग्रहीत करते हैं, और प्रत्येक नए अनुमान में औसत रूप में यह अनुभव किया जाता है।
यह भी संभव है कि आगे की न्यूनतम न्यूनतम खोज के साथ उत्तराधिकार के लिए एक आरएल विधि को संयोजित किया जाए - यही वह है जो मूल अल्फा गो ने किया था, और प्रशिक्षण के दौरान अल्फागो जीरो क्या करता है। यह एक शक्तिशाली तरीका है क्योंकि न्यूनतम खोज RL- जनित आंकड़ो को दोबारा जाँचने का काम करेगी। हालांकि सरल पर्याप्त गेम के लिए, आरएल सही उत्तराधिकार सीख सकता है और आपको केवल स्थानीय खोज की आवश्यकता होगी (अगला कदम क्या होना चाहिए)।
जब तक आपका खेल बहुत सरल नहीं है (सभी संभव राज्य स्मृति में फिट होंगे), आपको आरएल एल्गोरिथ्म के अंदर किसी प्रकार के फ़ंक्शन सन्निकटन की आवश्यकता होगी। तंत्रिका नेटवर्क एक मानक विकल्प हैं। बीत रहा है कुछ है कि भाग के लिए अपरिहार्य है - बस सभी सुविधाओं की एक भारित योग - हालांकि एक अन्य अच्छा विकल्प प्रॉक्सी सुविधाओं का एक समूह और एक रेखीय approximator का उपयोग करें (है कि आप हाथ से एक अनुमानी निर्माण करने के लिए उपयोग कर सकते हैं) को परिभाषित करने के लिए है। यह काफी अच्छी तरह से काम कर सकता है, और उदाहरण के लिए चेकर्स (ड्राफ्ट) खिलाड़ियों में आरएल का उपयोग करके प्रशिक्षित किया गया है।
वास्तव में, बशर्ते आपका खुद का हेयुरिस्टिक फ़ंक्शन बहुत असामान्य न हो, आप शायद इसे एक रैखिक सन्निकट की तरह मान सकते हैं और आरएल का उपयोग करके इसके लिए सबसे अच्छा वजन सीख सकते हैं।