मैं एक एआई बनाना चाहता हूं जो पांच-इन-द-रो / गोमोकू खेल सकता है। जैसा कि मैंने शीर्षक में उल्लेख किया है, मैं इसके लिए सुदृढीकरण सीखने का उपयोग करना चाहता हूं।
बेसलाइन के साथ, मैं पॉलिसी ग्रेडिएंट विधि का उपयोग करता हूं , जिसका नाम REINFORCE है। मान और नीति फ़ंक्शन सन्निकटन के लिए, मैं एक तंत्रिका नेटवर्क का उपयोग करता हूं । इसमें दृढ़ और पूरी तरह से जुड़ी हुई परतें हैं। आउटपुट को छोड़कर, सभी परतें साझा की जाती हैं। पॉलिसी की आउटपुट लेयर में _ (बोर्ड का आकार) आउटपुट यूनिट और उन पर सॉफ्टमैक्स होता है। तो यह स्टोकेस्टिक है। लेकिन क्या होगा अगर नेटवर्क एक अवैध कदम के लिए बहुत अधिक संभावना पैदा करता है? एक अमान्य चाल तब होती है जब एजेंट एक वर्ग की जांच करना चाहता है जिसमें एक "X" या "O" होता है। मुझे लगता है कि यह उस खेल की स्थिति में फंस सकता है।
क्या आप इस समस्या के लिए कोई समाधान सुझा सकते हैं?
मेरा अनुमान अभिनेता-आलोचक पद्धति का उपयोग करना है । अमान्य कदम के लिए, हमें एक नकारात्मक इनाम देना चाहिए और प्रतिद्वंद्वी को बारी देना चाहिए।