मानव डेटाबेस के बिना AlphaGo (और सुदृढीकरण-शिक्षण का उपयोग करके अन्य खेल कार्यक्रम)


13

मैं विषय का विशेषज्ञ नहीं हूं, और मेरा सवाल शायद बहुत भोला है। यह एक निबंध से लगता है कि सुदृढीकरण सीखने की शक्तियों और सीमा को समझने के लिए अल्फ़ाज़ो कार्यक्रम में उपयोग किया जाता है।

अन्य चीजों (मोंटे-कार्लो पेड़ों की खोज, आदि), तंत्रिका नेटवर्क का उपयोग करके बनाया गया प्रोग्राम अल्फा-न्यूरल नेटवर्क है, जो मानव-खेला जाने वाले खेलों के एक विशाल डेटाबेस से प्रशिक्षित किया जाता है, और जिसे तब प्ले वर्जन को खेलने देकर प्रबलित किया जाता है। खुद के खिलाफ कई बार कार्यक्रम।

अब मुझे आश्चर्य है कि ऐसा क्या होगा कि हमने मानव डेटाबेस के बिना इस तरह के एक कार्यक्रम का निर्माण करने की कोशिश की, यानी गो के एक बुनियादी कार्यक्रम से शुरू होकर केवल नियमों को जानने के लिए और पेड़ों की खोज करने के लिए कुछ विधि, और अपने तंत्रिका नेटवर्क को बेहतर बनाने के लिए खुद के खिलाफ खेलने दें। क्या हम खुद के खिलाफ कई खेलों के बाद, सर्वश्रेष्ठ मानव खिलाड़ियों के साथ प्रतिस्पर्धा करने या हरा पाने में सक्षम एक कार्यक्रम में पहुंचेंगे? और यदि हां, तो इसके लिए कितने गेम (परिमाण के क्रम में) की आवश्यकता होगी? या इसके विपरीत, क्या इस तरह का कार्यक्रम एक बहुत कमजोर खिलाड़ी की ओर अभिसरित होगा?

मुझे लगता है कि प्रयोग नहीं किया गया है, क्योंकि अल्फ़ागो हाल ही में है। लेकिन जवाब एक विशेषज्ञ के लिए स्पष्ट हो सकता है। अन्यथा कोई भी शिक्षित अनुमान मुझे रुचिकर लगेगा।

"सरल" गेम के लिए भी यही प्रश्न पूछ सकते हैं। यदि हम अल्फ़ागो के लिए उपयोग किए जाने वाले समान सुदृढीकरण-सीखने वाले टेकनीक का उपयोग करते हैं, लेकिन मानव डेटाबेस के उपयोग के साथ, शतरंज कार्यक्रम के लिए, तो क्या हम अंततः एक कार्यक्रम को सर्वश्रेष्ठ मानव को हरा पाएंगे? और यदि हां, तो कितनी जल्दी? क्या यह कोशिश की गई है? या यदि शतरंज के लिए नहीं है, तो चेकर्स के बारे में क्या है, या सरल गेम भी?

बहुत बहुत धन्यवाद।

जवाबों:


10

मैं कोई विशेषज्ञ नहीं हूँ लेकिन ऐसा लगता है कि अल्फा जीरो आपके सवाल का जवाब देता है। https://deepmind.com/blog/alphago-zero-learning-scratch/

अल्फ़ागो के पिछले संस्करणों ने शुरू में हज़ारों मानव शौकिया और पेशेवर खेलों पर प्रशिक्षण दिया था कि गो कैसे खेलें। AlphaGo Zero इस स्टेप को पूरा करता है और पूरी तरह से रैंडम प्ले से शुरू होने वाले गेम को खुद के खिलाफ खेलकर बस खेलना सीखता है। ऐसा करने पर, इसने खेल के मानव स्तर को जल्दी से पार कर लिया और अल्फ़ागो के पहले से प्रकाशित चैंपियन-पराजित संस्करण को 100 गेम से 0 से हरा दिया।


क्या यह हाल ही का है?
कोसमोस

1
यह 18 अक्टूबर, 2017 को प्रकाशित हुआ था।
nasasas

मनुष्यों के खिलाफ परिणाम जानना दिलचस्प होगा। क्योंकि पूर्व-प्रशिक्षित मानव डेटाबेस का एक कारण मानव विरोधियों के खिलाफ एमसीटीएस एल्गोरिथ्म को परिष्कृत करना है । ओरिजिनल अल्फागो को बनाम मनुष्यों के खेलने के लिए अनुकूलित किया गया था, अन्य एमएल को नहीं। इस तरह से यह कहना कठिन है कि क्या अल्फ़ागो ज़ीरो मूल रूप से अल्फ़ाज़ो की तुलना में "बेहतर" है, या सिर्फ एक गेम थ्योरी अर्थ में इसका वर्चस्व है - जैसे अल्फ़ागो ज़ीरो धड़कता है, अल्फ़ागो बीट करता है, ली सेडॉल धड़कता है, अल्फ़ागो ज़ीरो। । ।
नील स्लेटर

4
नील, हाँ यह दिलचस्प होगा। लेकिन मैं अल्फा गो शून्य के खिलाफ मानव संभावना का एक प्रतिशत भी दांव पर नहीं लगाऊंगा।
जोएल

1
क्यू

9

यही सवाल अल्फ़ाज़ो पेपर के लेखक से पूछा गया है और उनका जवाब था कि हमें नहीं पता कि अगर अल्फ़ाज़ खरोंच से सीखेंगे (उन्होंने इसका परीक्षण नहीं किया है)।

हालांकि, खेल की जटिलता को देखते हुए, पूर्व ज्ञान के बिना खरोंच से एक एल्गोरिथ्म को प्रशिक्षित करना एक मुश्किल काम होगा। इस प्रकार, मनुष्यों द्वारा अर्जित ज्ञान का उपयोग करके इसे एक मास्टर स्तर पर अपग्रेड करके ऐसी प्रणाली का निर्माण शुरू करना उचित है।

यह ध्यान देने योग्य है कि, हालांकि मानव पेड़ नोड्स (राज्यों) में कार्रवाई के चयन को पूर्वाग्रह करता है, इससे पहले एक क्षय कारक होता है। इसका मतलब यह है कि एक विशिष्ट राज्य की यात्राओं में वृद्धि हुई है, एल्गोरिथ्म का पता लगाने के लिए प्रोत्साहित करने के लिए पूर्व की ताकत को कम करें।

अल्फा गोस्ट के मास्टरी का मौजूदा स्तर अज्ञात है कि यह मानव के खेलने के तरीके के कितना करीब या दूर है (टूर्नामेंट में यह एक ऐसा कदम था जिसे प्रदर्शन करने के लिए एक मानव के पास लगभग शून्य संभावना थी! - लेकिन समान रूप से कुछ वास्तव में खराब चाल भी थी) । संभवतः यह इन सभी सवालों के जवाब देने के लिए रहता है कि वास्तव में इसी परीक्षण एल्गोरिदम को लागू करके।

मैं अपने उत्तर को संपादित करने के लिए एहसानमंद हूं क्योंकि दीपमिन्द के हालिया कागज आपके प्रश्न का उत्तर देते हैं। बहुत सारी उन्नतिएँ हुईं जो कि पिछले पिछले अनुभव से AlphaGo के पहले संस्करण के साथ हुईं और यह वास्तव में इसे पढ़ने लायक है।


आपका स्वागत है :)
कॉन्स्टेंटिनोस

8

जहाँ तक मुझे अल्फ़ाज़ो के एल्गोरिथ्म की समझ है, यह एक सरल सुदृढीकरण सीखने (आरएल) ढांचे पर आधारित है, जो मोंटे-कार्लो वृक्ष खोज का उपयोग करके सर्वश्रेष्ठ कार्यों का चयन करता है। इसके शीर्ष पर, आरएल एल्गोरिथ्म द्वारा कवर किए गए राज्य और कार्य केवल खेल के पूरे संभव कॉन्फ़िगरेशन नहीं हैं (गो में एक बड़ी जटिलता है) लेकिन एक नीति नेटवर्क और एक मूल्य नेटवर्क पर आधारित हैं, जो वास्तविक गेम से सीखा जाता है और फिर अल्फाजो बनाम अल्फाजो गेम खेलने से सुधार हुआ।

तब हमें आश्चर्य हो सकता है कि वास्तविक खेलों से प्रशिक्षण केवल समय बचाने के लिए एक शॉर्टकट है या ऐसी दक्षता प्राप्त करने के लिए एक आवश्यक विकल्प। मुझे लगता है कि कोई भी वास्तव में जवाब नहीं जानता है, लेकिन हम कुछ मान्यताओं को बता सकते हैं। सबसे पहले, अच्छी चाल को बढ़ावा देने की मानव क्षमता एक सरल तंत्रिका जाल की तुलना में बहुत अधिक जटिल खुफिया है। बोर्ड गेम्स के लिए, यह मेमोरी, अनुभव, तर्क और भावनाओं के बीच का मिश्रण है। इस दिशा में, मुझे यकीन नहीं है कि अल्फ़ा गो एल्गोरिथ्म ऐसे मॉडल का निर्माण कर सकता है, जो स्पष्ट रूप से गो गेम के संपूर्ण विन्यास (जो व्यावहारिक रूप से असंभव है) के विशाल प्रतिशत की खोज किए बिना हो सकता है। वर्तमान शोध इस तरह के खेल के अधिक जटिल प्रतिनिधित्व के निर्माण पर ध्यान केंद्रित करते हैं, जैसे कि रिलेशनल आरएल या इंडक्टिव लॉजिक लर्निंग। फिर सरल खेल के लिए (शतरंज के लिए मामला हो सकता है लेकिन कुछ भी निश्चित नहीं है),

फिर भी यह केवल एक राय है। लेकिन मुझे पूरा यकीन है कि आपके सवाल का जवाब देने की कुंजी आरएल के दृष्टिकोण में रहती है जो आजकल ज्ञान के मामले में काफी सरल है। हम वास्तव में यह पहचानने में सक्षम नहीं हैं कि क्या हमें इन खेलों को संभालने में सक्षम बनाता है, और मानव को हराने के लिए हमने अभी तक जो सबसे अच्छा तरीका पाया है वह मोटे तौर पर उससे सीखना है, और (गणना) बड़े पैमाने पर गणना के साथ सीखा मॉडल में सुधार करना है।


1

मानव डेटाबेस के बिना प्रतिस्पर्धी आत्म-खेल जटिल, आंशिक रूप से देखे गए वातावरण के लिए भी संभव है। OpenAI इस दिशा पर ध्यान केंद्रित कर रहा है। इस लेख के अनुसार :

आत्म-खेल यह सुनिश्चित करता है कि एक AI में सुधार के लिए पर्यावरण हमेशा सही कठिनाई है।

यह आत्म-खेल की सफलता का एक महत्वपूर्ण कारण है।

OpenAI ने Dota 2 1v1 के लिए अलौकिक परिणाम प्राप्त किए, अगस्त 11 वीं 2017 में, मानक टूर्नामेंट नियमों के तहत Dendi को 2-0 से हराया

बॉट ने सेल्फ-प्ले द्वारा खेल को खरोंच से सीखा, और नकल सीखने या पेड़ की खोज का उपयोग नहीं करता है। यह एआई सिस्टम बनाने की दिशा में एक कदम है जो वास्तविक मनुष्यों को शामिल करते हुए गड़बड़, जटिल स्थितियों में अच्छी तरह से परिभाषित लक्ष्यों को पूरा करता है।

सिर्फ खेल ही नहीं, यह दिशा रोबोटिक्स के कार्यों के लिए भी आशाजनक है।

हमने पाया है कि आत्म-खेलने से एआई को सिम्युलेटेड शारीरिक कौशल की खोज करने की अनुमति मिलती है, जैसे कि बॉलिंग, डकिंग, फेकिंग, किकिंग, कैचिंग, और बॉल के लिए डाइविंग, स्पष्ट रूप से इन कौशलों को ध्यान में रखते हुए वातावरण को डिजाइन किए बिना।

अगले चरण में, वे सीखने , सहयोग करने और संवाद करने का तरीका सीखते हैं , न कि केवल आत्म-खेल तक सीमित।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.