मैं वर्तमान में मशीन लर्निंग के बारे में पढ़ रहा हूं और सोच रहा हूं कि इसे कनेक्ट फोर खेलने के लिए कैसे लागू किया जाए ।
मेरा वर्तमान प्रयास एक सिग्मोइड फ़ंक्शन मॉडल और एक-बनाम-सभी विधि का उपयोग करके एक साधारण मल्टीकाचर्स क्लासिलेटर है।
मेरी राय में, इनपुट सुविधाओं में 7x6 = 42 ग्रिड फ़ील्ड की स्थिति (खिलाड़ी 1 की डिस्क, प्लेयर 2 की डिस्क) खाली होनी चाहिए।
डिस्क को डालने के लिए आउटपुट पंक्ति की संख्या होगी। क्योंकि यह 1 और 7 के बीच एक असतत संख्या है, मुझे लगता है कि इसे एक मल्टीस्कूल वर्गीकरण समस्या के रूप में माना जा सकता है।
लेकिन मैं पर्यवेक्षित शिक्षण में प्रयोग करने योग्य प्रशिक्षण उदाहरण कैसे उत्पन्न करूं?
मुख्य लक्ष्य खेल जीतना है लेकिन परिणाम स्पष्ट रूप से नहीं पता है जब हर कर रहा है लेकिन अंतिम मोड़। अगर मैं दो खिलाड़ियों को बेतरतीब ढंग से तय करने देता हूं कि हजारों बार एक-दूसरे के खिलाफ क्या खेलना है, तो क्या यह केवल प्रत्येक खेल के विजेता द्वारा किए गए सभी बारीकियों को प्रशिक्षण उदाहरण के रूप में लेने के लिए पर्याप्त होगा? या मुझे यह पूरी तरह से अलग तरीके से करना है?
संपादित करें: जैसा कि टिप्पणियों में सुझाया गया है, मैंने सुदृढीकरण सीखने के बारे में थोड़ा पढ़ा। मुझे जो समझ में आया है, उससे Q- लर्निंग को ट्रिक करनी चाहिए, अर्थात मुझे वर्तमान अवस्था के एक फंक्शन Q को अनुमानित करना होगा और उस राज्य में शुरू होने वाले अधिकतम संचयी इनाम के लिए कार्रवाई करनी होगी। फिर प्रत्येक चरण उस कार्रवाई को चुनना होगा जिसके परिणामस्वरूप Q का अधिकतम मूल्य होता है। हालांकि, इस गेम में बहुत से राज्यों का तरीका है ताकि यह एक लुकअप तालिका के रूप में किया जा सके। तो, इस क्यू-फंक्शन को मॉडल करने का एक प्रभावी तरीका क्या है?