शतरंज इंजन का मूल्यांकन कार्य, चाहे वह तंत्रिका जाल या स्पष्ट कोड के रूप में तात्कालिक हो, हमेशा किसी भी बोर्ड की स्थिति के लिए एक मूल्य प्रदान करने में सक्षम है। यदि आप इसे एक बोर्ड का दर्जा देते हैं, यहां तक कि बेतुके भी हैं जो एक गेम में कभी नहीं होंगे, तो यह एक नंबर को थूकने में सक्षम होगा जो यह दर्शाता है कि यह एक खिलाड़ी या किसी अन्य के लिए कितना अनुकूल है। चूंकि शतरंज में बोर्ड के पदों की संख्या असहनीय रूप से विशाल है, इसलिए प्रशिक्षण केवल खेल के पेड़ के एक असीम नमूना पर हो सकता है। इंजन केवल बोर्ड पदों के पहले की गणना के मूल्यों को याद नहीं कर रहा है, लेकिन टुकड़ों की व्यवस्था के आधार पर गणना कर रहा है। एक गैर-तंत्रिका-शुद्ध उदाहरण के लिए, एक शतरंज इंजन के मूल्यांकन का हिस्सा अपनी तरफ से प्रत्येक टुकड़े के मूल्य को जोड़ना और प्रतिद्वंद्वी के टुकड़ों के कुल मूल्य को घटाना हो सकता है। फिर,
जब इंजन अप्रशिक्षित होता है, तो स्थिति के लिए असाइन किए गए मान और साथ ही यादृच्छिक हो सकते हैं क्योंकि मूल्यांकन फ़ंक्शन के पैरामीटर (आमतौर पर) यादृच्छिक मूल्यों के साथ शुरू होते हैं। एक प्रशिक्षण चरण का लक्ष्य इंजन के मापदंडों को समायोजित करना है ताकि यह बोर्ड के पदों पर उच्च स्कोर प्रदान करे जो खिलाड़ी के लिए संभावित विजेता राज्य हैं।
अल्फाज़ेरो (पृष्ठ 3) पर कागज से :
अल्फ़ाज़ेरो में गहरे तंत्रिका नेटवर्क के मापदंडों को स्व-प्ले सुदृढीकरण सीखने से प्रशिक्षित किया जाता है, जो यादृच्छिक रूप से आरंभिक मापदंडों से शुरू होता है। MCTS द्वारा दोनों खिलाड़ियों के लिए चाल का चयन करके खेल खेले जाते हैं। खेल के अंत में, खेल की गणना करने के लिए खेल के नियमों के अनुसार टर्मिनल की स्थिति बनाई जाती है: हार के लिए ,1, ड्रॉ के लिए 0, और जीत के लिए +1। तंत्रिका नेटवर्क मापदंडों को अपडेट किया जाता है ताकि अनुमानित परिणाम और खेल के परिणाम के बीच त्रुटि को कम किया जा सके, और खोज की संभावनाओं के लिए पॉलिसी वेक्टर की समानता को अधिकतम किया जा सके।
[उद्धरण से हटाए गए गणित के प्रतीक]
सारांश में, प्रशिक्षण के दौरान, अल्फाज़ेरो ने खुद के खिलाफ एक खेल खेला। जब खेल खत्म हो जाता है, तो खेल का परिणाम और इसकी भविष्यवाणी की सटीकता कैसे खेल को आगे बढ़ाती है इसका उपयोग तंत्रिका जाल को समायोजित करने के लिए किया जाता है ताकि यह अगले गेम के दौरान अधिक सटीक हो। अल्फ़ाज़ेरो ने अपने द्वारा देखी गई हर स्थिति का रिकॉर्ड नहीं रख रहा है, लेकिन खुद को समायोजित कर रहा है ताकि भविष्य में देखे जाने वाले किसी भी बोर्ड का अधिक सटीक मूल्यांकन कर सके।