मैं विषय का विशेषज्ञ नहीं हूं, और मेरा सवाल शायद बहुत भोला है। यह एक निबंध से लगता है कि सुदृढीकरण सीखने की शक्तियों और सीमा को समझने के लिए अल्फ़ाज़ो कार्यक्रम में उपयोग किया जाता है।
अन्य चीजों (मोंटे-कार्लो पेड़ों की खोज, आदि), तंत्रिका नेटवर्क का उपयोग करके बनाया गया प्रोग्राम अल्फा-न्यूरल नेटवर्क है, जो मानव-खेला जाने वाले खेलों के एक विशाल डेटाबेस से प्रशिक्षित किया जाता है, और जिसे तब प्ले वर्जन को खेलने देकर प्रबलित किया जाता है। खुद के खिलाफ कई बार कार्यक्रम।
अब मुझे आश्चर्य है कि ऐसा क्या होगा कि हमने मानव डेटाबेस के बिना इस तरह के एक कार्यक्रम का निर्माण करने की कोशिश की, यानी गो के एक बुनियादी कार्यक्रम से शुरू होकर केवल नियमों को जानने के लिए और पेड़ों की खोज करने के लिए कुछ विधि, और अपने तंत्रिका नेटवर्क को बेहतर बनाने के लिए खुद के खिलाफ खेलने दें। क्या हम खुद के खिलाफ कई खेलों के बाद, सर्वश्रेष्ठ मानव खिलाड़ियों के साथ प्रतिस्पर्धा करने या हरा पाने में सक्षम एक कार्यक्रम में पहुंचेंगे? और यदि हां, तो इसके लिए कितने गेम (परिमाण के क्रम में) की आवश्यकता होगी? या इसके विपरीत, क्या इस तरह का कार्यक्रम एक बहुत कमजोर खिलाड़ी की ओर अभिसरित होगा?
मुझे लगता है कि प्रयोग नहीं किया गया है, क्योंकि अल्फ़ागो हाल ही में है। लेकिन जवाब एक विशेषज्ञ के लिए स्पष्ट हो सकता है। अन्यथा कोई भी शिक्षित अनुमान मुझे रुचिकर लगेगा।
"सरल" गेम के लिए भी यही प्रश्न पूछ सकते हैं। यदि हम अल्फ़ागो के लिए उपयोग किए जाने वाले समान सुदृढीकरण-सीखने वाले टेकनीक का उपयोग करते हैं, लेकिन मानव डेटाबेस के उपयोग के साथ, शतरंज कार्यक्रम के लिए, तो क्या हम अंततः एक कार्यक्रम को सर्वश्रेष्ठ मानव को हरा पाएंगे? और यदि हां, तो कितनी जल्दी? क्या यह कोशिश की गई है? या यदि शतरंज के लिए नहीं है, तो चेकर्स के बारे में क्या है, या सरल गेम भी?
बहुत बहुत धन्यवाद।