4
सुदृढीकरण सीखने में अमान्य चाल को कैसे संभालें?
मैं एक एआई बनाना चाहता हूं जो पांच-इन-द-रो / गोमोकू खेल सकता है। जैसा कि मैंने शीर्षक में उल्लेख किया है, मैं इसके लिए सुदृढीकरण सीखने का उपयोग करना चाहता हूं। बेसलाइन के साथ, मैं पॉलिसी ग्रेडिएंट विधि का उपयोग करता हूं , जिसका नाम REINFORCE है। मान और नीति …