AlphaGo शून्य से लेख प्रकृति , "मानव ज्ञान के बिना जाओ के खेल मास्टरिंग", का दावा है पुराने संस्करण से चार प्रमुख मतभेद:
- केवल आत्म-शिक्षण (मानव खेलों पर प्रशिक्षित नहीं)
- इनपुट के रूप में केवल बोर्ड और पत्थरों का उपयोग करना (कोई हाथ से लिखी गई विशेषताएं नहीं)।
- नीतियों और मूल्यों के लिए एकल तंत्रिका नेटवर्क का उपयोग करना
- एक नया पेड़-खोज एल्गोरिदम जो इस संयुक्त नीति / मूल्य नेटवर्क का उपयोग करता है ताकि यह निर्देशित किया जा सके कि अच्छी चाल कहां खोजनी है।
अंक (1) और (2) सुदृढीकरण सीखने में नए नहीं हैं, लेकिन आपके प्रश्न के लिए टिप्पणियों में बताए गए पिछले AlphaGo सॉफ़्टवेयर में सुधार करें। इसका सीधा मतलब है कि वे अब बेतरतीब ढंग से आरंभिक भार से शुरू होने वाले शुद्ध सुदृढीकरण सीखने का उपयोग कर रहे हैं। यह बेहतर, तेजी से सीखने वाले एल्गोरिदम द्वारा सक्षम है।
यहां उनका दावा है "हमारा प्राथमिक योगदान यह प्रदर्शित करना है कि मानव डोमेन ज्ञान के बिना अलौकिक प्रदर्शन प्राप्त किया जा सकता है।" (पृष्ठ २२)।
अंक (3) और (4) इस अर्थ में उपन्यास हैं कि उनका एल्गोरिथ्म उनके पिछले दृष्टिकोण की तुलना में सरल और अधिक सामान्य है। उन्होंने यह भी उल्लेख किया है कि गुओ एट अल द्वारा पिछले काम पर एक सुधार है ।
नीति / मूल्य नेटवर्क को एकीकृत करना (3) उन्हें अच्छे चालों की खोज करने के लिए मोंटे-कार्लो ट्री खोज के अधिक कुशल संस्करण को लागू करने में सक्षम बनाता है और साथ ही नेटवर्क को तेज़ी से प्रशिक्षित करने के लिए खोज ट्री का उपयोग करके (4)। यह बहुत शक्तिशाली है।
इसके अलावा, वे नई चाल के लिए खोज को अनुकूलित करने के लिए डेटा-संरचनाओं को बैचने और पुन: उपयोग करने जैसे कई दिलचस्प कार्यान्वयन विवरणों का वर्णन करते हैं।
इसका प्रभाव यह है कि इसे कम कंप्यूटिंग पावर की आवश्यकता होती है, जो अपने सॉफ्टवेयर के पिछले संस्करणों के लिए 176 जीपीयू और 48 टीपीयू के बजाय 4 टीपीयू पर चलती है।
यह निश्चित रूप से गो सॉफ्टवेयर के संदर्भ में इसे "उपन्यास" बनाता है। मुझे विश्वास है कि (3) और (4) भी "उपन्यास" एक व्यापक संदर्भ में हैं और में अन्य सुदृढीकरण सीखने के रूप में इस तरह के डोमेन लागू होंगे जैसे रोबोटिक्स।