AlphaGo शून्य में "उपन्यास सुदृढीकरण सीखने एल्गोरिथ्म" क्या है?


10

किसी कारण से, अपने अविश्वसनीय परिणामों के बावजूद, AlphaGo Zero को मूल AlphaGo के रूप में उतना प्रचार नहीं मिल रहा है। खरोंच से शुरू, यह पहले से ही अल्फ़ा मास्टर को पीट चुका है और कई अन्य बेंचमार्क पारित कर चुका है। और भी अविश्वसनीय रूप से, यह 40 दिनों में किया गया है। Google इसे "यकीनन दुनिया के सर्वश्रेष्ठ गो खिलाड़ी" का नाम देता है

डीपमाइंड का दावा है कि यह "सुदृढीकरण सीखने का उपन्यास" है - क्या यह तकनीक वास्तव में उपन्यास है? या इस तकनीक का इस्तेमाल किए जाने के समय-समय पर और क्या-क्या हुए हैं, उनके परिणाम क्या थे? मुझे लगता है कि मैं जिन आवश्यकताओं के बारे में बात कर रहा हूं वे 1 हैं) कोई मानवीय हस्तक्षेप नहीं है और 2) कोई ऐतिहासिक नाटक नहीं है, लेकिन ये लचीले हैं।

यह एक समान प्रश्न प्रतीत होता है, लेकिन सभी उत्तर इस धारणा से शुरू होते हैं कि अल्फा जीरो अपनी तरह का पहला है।


सुदृढीकरण सीखना नया नहीं है। Google ने किन तकनीकों का दावा किया कि वे पहले वाली हैं?
हैलोवर्ल्ड

लिंक की गई वेबसाइट पर इसके बारे में एक उद्धरण है, और लेख में वे वाक्यांश का उपयोग करते हैं "अल्फ़ागो ज़ीरो में तंत्रिका नेटवर्क एक उपन्यास सुदृढीकरण सीखने के एल्गोरिथ्म द्वारा स्व-खेल के खेल से प्रशिक्षित है।"
डबूकाय

1
आत्म-खेल निश्चित रूप से नया नहीं है। यह Google से पहले मौजूद था। उनके एल्गोरिथ्म में विवरण हैं जो उन्हें "उपन्यास" बनाते हैं। शायद कोई और जवाब दे सकता है।
हेलोवर्ल्ड

2
मैं समझता हूं कि- मुझे लगता है कि मैं यह समझने की कोशिश कर रहा हूं कि उनके दृष्टिकोण ने कितना अविश्वसनीय रूप से अच्छा बनाया है, और क्या ऐसा कुछ है जिसे हमें अन्य क्षेत्रों में देखने की उम्मीद करनी चाहिए। क्या यह एक नया दर्शन है या वास्तव में अच्छा कोड है?
डबूकाय

1
मैं यहाँ कागज की एक प्रति मिली: nature.com/articles/... (शेयर पहुँच टोकन, जो ब्लॉग से है कि लिंक यह है, इसलिए यह कानूनी सार्वजनिक शेयर AFAICS है भी शामिल है)। विवरण पढ़ने के बाद भी हालांकि वास्तविक नवीनता को चुनना कठिन है - सभी व्यक्तिगत विचार पहले से मौजूद आरएल / गेम-प्लेइंग तकनीक से प्रतीत होते हैं, यह सिर्फ उनका विशिष्ट संयोजन हो सकता है जो उपन्यास है
नील स्लेटर

जवाबों:


6

AlphaGo शून्य से लेख प्रकृति , "मानव ज्ञान के बिना जाओ के खेल मास्टरिंग", का दावा है पुराने संस्करण से चार प्रमुख मतभेद:

  1. केवल आत्म-शिक्षण (मानव खेलों पर प्रशिक्षित नहीं)
  2. इनपुट के रूप में केवल बोर्ड और पत्थरों का उपयोग करना (कोई हाथ से लिखी गई विशेषताएं नहीं)।
  3. नीतियों और मूल्यों के लिए एकल तंत्रिका नेटवर्क का उपयोग करना
  4. एक नया पेड़-खोज एल्गोरिदम जो इस संयुक्त नीति / मूल्य नेटवर्क का उपयोग करता है ताकि यह निर्देशित किया जा सके कि अच्छी चाल कहां खोजनी है।

अंक (1) और (2) सुदृढीकरण सीखने में नए नहीं हैं, लेकिन आपके प्रश्न के लिए टिप्पणियों में बताए गए पिछले AlphaGo सॉफ़्टवेयर में सुधार करें। इसका सीधा मतलब है कि वे अब बेतरतीब ढंग से आरंभिक भार से शुरू होने वाले शुद्ध सुदृढीकरण सीखने का उपयोग कर रहे हैं। यह बेहतर, तेजी से सीखने वाले एल्गोरिदम द्वारा सक्षम है।

यहां उनका दावा है "हमारा प्राथमिक योगदान यह प्रदर्शित करना है कि मानव डोमेन ज्ञान के बिना अलौकिक प्रदर्शन प्राप्त किया जा सकता है।" (पृष्ठ २२)।

अंक (3) और (4) इस अर्थ में उपन्यास हैं कि उनका एल्गोरिथ्म उनके पिछले दृष्टिकोण की तुलना में सरल और अधिक सामान्य है। उन्होंने यह भी उल्लेख किया है कि गुओ एट अल द्वारा पिछले काम पर एक सुधार है

नीति / मूल्य नेटवर्क को एकीकृत करना (3) उन्हें अच्छे चालों की खोज करने के लिए मोंटे-कार्लो ट्री खोज के अधिक कुशल संस्करण को लागू करने में सक्षम बनाता है और साथ ही नेटवर्क को तेज़ी से प्रशिक्षित करने के लिए खोज ट्री का उपयोग करके (4)। यह बहुत शक्तिशाली है।

इसके अलावा, वे नई चाल के लिए खोज को अनुकूलित करने के लिए डेटा-संरचनाओं को बैचने और पुन: उपयोग करने जैसे कई दिलचस्प कार्यान्वयन विवरणों का वर्णन करते हैं।

इसका प्रभाव यह है कि इसे कम कंप्यूटिंग पावर की आवश्यकता होती है, जो अपने सॉफ्टवेयर के पिछले संस्करणों के लिए 176 जीपीयू और 48 टीपीयू के बजाय 4 टीपीयू पर चलती है।

यह निश्चित रूप से गो सॉफ्टवेयर के संदर्भ में इसे "उपन्यास" बनाता है। मुझे विश्वास है कि (3) और (4) भी "उपन्यास" एक व्यापक संदर्भ में हैं और में अन्य सुदृढीकरण सीखने के रूप में इस तरह के डोमेन लागू होंगे जैसे रोबोटिक्स।


मुझे लगता है कि (4) डेविड सिल्वर के व्याख्यान - क्लासिक गेम्स पर लेक्चर 10 - में मौजूदा कई मामलों में MCTS पहले से प्रशिक्षित एमएल द्वारा निर्देशित है। अल्फा गो जीरो के मामले में, यह चारों ओर फ़्लिप है और एमसीटीएस के परिणाम का उपयोग एमएल के लिए सीखने के लक्ष्यों को निर्धारित करने के लिए किया जाता है। हालांकि, जो चीज मुझे आश्चर्यचकित करती है कि क्या यह वास्तव में "उपन्यास" है, ऐसा करने की संभावना केवल व्याख्यान में उल्लिखित है। । ।
नील स्लेटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.