एक राउंड आधारित बोर्ड गेम के लिए तंत्रिका नेटवर्क को कैसे प्रशिक्षित किया जाए?

11

मैं सोच रहा हूं कि एक राउंड आधारित बोर्ड गेम जैसे टिक-टैक-टो, शतरंज, जोखिम या किसी अन्य राउंड आधारित गेम के लिए एक न्यूरल नेटवर्क को कैसे प्रशिक्षित किया जाए। इनपुट के रूप में खेल की स्थिति को खिलाने और वर्तमान खिलाड़ी के लिए कदम के रूप में आउटपुट का उपयोग करके, इंजेक्शन के द्वारा अगले कदम को प्राप्त करना बहुत सीधा लगता है। हालाँकि, उस उद्देश्य के लिए AI का प्रशिक्षण देना ऐसा प्रतीत नहीं होता कि सीधे आगे, क्योंकि:

एक भी चाल अच्छी है या नहीं, इसकी रेटिंग नहीं हो सकती है, इसलिए एकल चालों का प्रशिक्षण सही विकल्प नहीं लगता है
तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए पूरे गेम के सभी गेम स्टेटस (इनपुट्स) और मूव्स (आउटपुट) का उपयोग करना, सही विकल्प नहीं लगता है क्योंकि किसी खोए हुए गेम में सभी चालें खराब नहीं हो सकती हैं

इसलिए मैं सोच रहा हूं कि एक राउंड आधारित बोर्ड गेम के लिए एक न्यूरल नेटवर्क को कैसे प्रशिक्षित किया जाए? मैं टेंसरफ़्लो का उपयोग करके टिक-टैक-टो के लिए एक न्यूरल नेटवर्क बनाना चाहूंगा।

training tensorflow game-ai

— soriak
स्रोत

10

बड़ा अच्छा सवाल! इस प्रकार की समस्या के लिए एनएन बहुत आशाजनक है: जिराफ शतरंज । लाई की उपलब्धि को बहुत बड़ा सौदा माना जाता था , लेकिन दुर्भाग्य से कुछ महीने पहले ही अल्फागो सुर्खियों में आ गई थी। (यह सब अच्छी तरह से निकला, इसमें लाई को बाद में दीपमाइंड द्वारा काम पर रखा गया था, हालांकि जिराफ इंजन के लिए इतना अच्छा नहीं था ;)

मैंने लाई के दृष्टिकोण को काफी मददगार पाया है, और यह ठोस परिणामों द्वारा समर्थित है।

गेम थ्योरी और कॉम्बीनेटरियल गेम थ्योरी में अनुक्रमिक पसंदीदा शब्द है, क्योंकि आप "राउंड बेस्ड" के विपरीत " सेक्शनल " का उपयोग करना चाह सकते हैं , और ये ऐसे क्षेत्र हैं जो गेम में गणितीय विश्लेषण लागू करते हैं।

आपके द्वारा सूचीबद्ध खेलों को आधुनिक रणनीति बोर्ड गेम, या सामान्य रूप से गेम से अलग करने के लिए " अमूर्त " कहा जाता है , जो एक मजबूत विषय का उपयोग करते हैं और आमतौर पर यांत्रिकी और तत्वों के संदर्भ में अमूर्त खेलों की तुलना में कम कॉम्पैक्ट होते हैं। यह कैविएट करता है कि अमूर्त खेल क्रमिक खेल या बोर्डगेम, या विशेष रूप से खेल तक ही सीमित नहीं हैं, जैसा कि सुडोकू जैसी पहेलियों के मामले में है।

खेलों के इस समूह के लिए औपचारिक नाम आम तौर पर टिक-टैक-टो के आगे वर्गीकरण के साथ " पक्षपाती , अनुक्रमिक, निर्धारक , सही जानकारी " के रूप में "तुच्छ" (हल और आसानी से हल करने योग्य) और गैर-तुच्छ (अव्यवस्थित और अनसुलझी) के रूप में है। शतरंज और गो जैसे खेल।

— ड्यूकझोउ
स्रोत

7

मैं शतरंज का खिलाड़ी हूं और मेरा जवाब शतरंज पर ही होगा।

सुदृढीकरण सीखने के साथ एक तटस्थ नेटवर्क का प्रशिक्षण नया नहीं है, यह साहित्य में कई बार किया गया है।

मैं सामान्य रणनीतियों के बारे में संक्षेप में बताऊंगा।

एक नेटवर्क का उद्देश्य स्थिति मूल्यांकन सीखना है । हम सभी जानते हैं कि एक रानी एक बिशप से अधिक मजबूत है, लेकिन क्या हम स्पष्ट रूप से प्रोग्रामिंग के बिना नेटवर्क के बारे में जान सकते हैं? प्यादा संरचना के बारे में क्या? क्या नेटवर्क समझ पाता है कि कैसे मूल्यांकन किया जाए कि कोई पद जीत रहा है या नहीं?
अब, हम जानते हैं कि हमें नेटवर्क की आवश्यकता क्यों है, हमें इसे डिजाइन करने की आवश्यकता होगी। डिजाइन पढ़ाई के बीच मौलिक रूप से भिन्न होता है। गहरी शिक्षा लोकप्रिय होने से पहले, लोग उथले नेटवर्क का उपयोग कर रहे थे। आजकल, कई परतों वाला एक नेटवर्क बाहर खड़ा है।
एक बार जब हमारे पास नेटवर्क होगा, तो आपको एक शतरंज इंजन बनाने की आवश्यकता होगी। तंत्रिका नेटवर्क जादुई रूप से शतरंज नहीं खेल सकता है, इसे शतरंज इंजन से कनेक्ट करना होगा। सौभाग्य से, हमें स्थिति मूल्यांकन कोड लिखने की आवश्यकता नहीं है क्योंकि नेटवर्क हमारे लिए ऐसा कर सकता है।
अब, हमें गेम खेलना है। हम कुछ उच्च गुणवत्ता वाले शतरंज डेटाबेस के साथ शुरू कर सकते हैं या इसके बजाय हमारे एआई एजेंट किसी अन्य खिलाड़ी (जैसे स्वयं, एक और एआई एजेंट या एक मानव) के साथ खेल खेल सकते हैं। इसे सुदृढीकरण सीखने के रूप में जाना जाता है ।
जब हम गेम खेलते हैं, तो हम नेटवर्क पैरामीटर को अपडेट करते हैं। यह स्टोकेस्टिक ग्रेडिएंट डिसेंट (या अन्य समान तकनीकों) द्वारा किया जा सकता है। हम अपने प्रशिक्षण को दोहराते हैं जब तक हम चाहते हैं, आमतौर पर लाखों पुनरावृत्तियों पर।
अंत में, हमारे पास शतरंज के लिए एक प्रशिक्षित तटस्थ नेटवर्क मॉडल है!

विवरण के लिए निम्नलिखित संसाधनों को देखें:

https://chessprogramming.wikispaces.com/Learning

— नमस्ते दुनिया
स्रोत

केवल लघुशंका के लिए यह यहाँ है

— क्विंटमेंटिया

यह एक उदाहरण है कि कैसे एक बाहरी लिंक प्रदान करना, बिना सारांश के, भविष्य में नुकसानदायक हो सकता है। जैसा कि प्रदान किया गया लिंक अब मृत है

— ग्रेग हिल्स्टन

4

मुझे लगता है कि आपको सुदृढीकरण सीखने से परिचित होना चाहिए। मशीन सीखने के इस क्षेत्र में एजेंट अपने वातावरण को सफेद करता है और उसके बाद एजेंट को कुछ इनाम मिलता है। अब, एजेंट तंत्रिका नेटवर्क है जो पर्यावरण खेल है और एजेंट को इनाम मिल सकता है अगर यह जीत जाता है या -1 हार जाता है। आप एजेंट को प्रशिक्षित करने के लिए इस स्थिति, एक्शन, रिवेंज का अनुभव कर सकते हैं। मैं youtube और सटन की किताब पर डेविड सिल्वर के व्याख्यान की सिफारिश कर सकता हूं।

— मोलनार इस्तवान
स्रोत