मुझे लगता है कि ओपी अल्फा-बीटा के साथ अल्फ़ाज़ो के बारे में भ्रमित कर रहा था। अल्फा-बीटा में, आप वास्तव में प्रूनिंग के साथ मदद करने के लिए नीति नेटवर्क का उपयोग करेंगे, लेकिन यहां नहीं। फिर से, कोई प्रूनिंग नहीं है क्योंकि एल्गोरिथ्म मोंटे-कार्लो ट्री सर्च (MCTS) पर निर्भर करता है।
जो कोई भी मेरा जवाब सोचता है, वह बहुत लंबे समय तक सारांश अनुभाग में जा सकता है, जहां मैं बताता हूं कि दो नेटवर्क क्यों बेमानी हैं।
निम्नलिखित उदाहरण में, मैं अपने विचारों को समझने में आसान बनाने के लिए कुछ सरलीकरण करूँगा।
उदाहरण:
कल्पना कीजिए कि आपके पास एक ऐसी स्थिति है जहां दो कानूनी कदम हैं। पहला कदम आपके लिए एक मृत-खोया है, हालांकि, दूसरा कदम आपको एक विजयी लाभ देता है।
- पहला कदम: आपके लिए मजबूर नुकसान
- दूसरा कदम: आप के लिए मजबूर जीत
मूल्यांकन नेटवर्क
आइए मान लें कि Google आपको जो मूल्यांकन नेटवर्क देता है वह सही है। यह हमारे उदाहरण में किसी भी पत्ती की स्थिति का पूरी तरह से मूल्यांकन कर सकता है। हम अपने मूल्य नेटवर्क को उदाहरण में नहीं बदलेंगे।
हमारे उदाहरण को सरल बनाने के लिए, मान लें कि हमारा मूल्य नेटवर्क देता है:
- किसी भी पत्ती की स्थिति के लिए -1000 जो आपके लिए नुकसान दायक है
- किसी भी पत्ती की स्थिति के लिए +1000 जो आपके लिए एक जीत है
नीति नेटवर्क
मान लेते हैं कि Google आपको दो नीति नेटवर्क देता है। हमारी स्थिति के लिए उत्पन्न संभावनाएं हैं:
- नीति 1: चाल 1 के लिए 0.9 और चाल 2 के लिए 0.1
- नीति 2: चाल 1 के लिए 0.2 और चाल 2 के लिए 0.8।
ध्यान दें कि हमारा पहला पॉलिसी नेटवर्क हमारे उदाहरण के लिए गलत पूर्व संभावना देता है । यह चाल 1 के लिए 0.9 देता है, जो एक हारने वाला कदम है। यह ठीक है क्योंकि Google भी एक संपूर्ण नीति नेटवर्क को प्रशिक्षित नहीं कर सकता है।
पहले पॉलिसी नेटवर्क के साथ खेलना
AlphaGo को मोंटे-कार्लो के साथ एक सिमुलेशन उत्पन्न करने की आवश्यकता है, और इसे 1 या 2 का चयन करने की आवश्यकता है। अब, AlphaGo एक समान रूप से वितरित यादृच्छिक चर खींचता है, और यह चुन लेगा:
- अगर यादृच्छिक संख्या <= 0.9 है तो 1 को स्थानांतरित करें
- यदि यादृच्छिक संख्या> 0.9 है तो 2 को स्थानांतरित करें
तो अल्फा गो बहुत अधिक संभावना है कि हारने वाले कदम को अनुकरण करने के लिए (हमारे पहले सिमुलेशन में)। हमारे पहले सिमुलेशन में, हम सिमुलेशन के लिए एक अंक प्राप्त करने के लिए मूल्य नेटवर्क का भी उपयोग करेंगे। कागज में, यह है:
यह मान -1000 होगा, क्योंकि इस सिमुलेशन से नुकसान होगा।
अब, AlphaGo को दूसरा सिमुलेशन तैयार करना होगा। फिर से, पहले कदम के लिए अधिक संभावना होगी। लेकिन अंततः, दूसरा कदम उठाया जाएगा क्योंकि:
- दूसरी चाल के लिए हमारी पूर्व संभावना 0.1 है, शून्य नहीं
- AlphaGo को उन चालों को आज़माने के लिए प्रोत्साहित किया जाता है जिन्हें बहुत अधिक नहीं समझा गया है। कागज में, यह इस समीकरण द्वारा किया जाता है:
ध्यान दें कि N
इस कदम के लिए खोज की गई चालों की संख्या है और यह हर में है। अधिक संभावना है कि हमारा पहला कदम खोजा गया है, यह u
कार्य जितना छोटा है। इस प्रकार, हमारे दूसरे कदम के चयन की संभावना में सुधार होता है क्योंकि अल्फा गो वास्तव में इस समीकरण द्वारा एक चाल चुनता है:
यह प्रमुख समीकरण है। कृपया इसे ध्यान से देखें:
- इसकी
P
पूर्व संभावना के लिए एक शब्द है (पॉलिसी नेटवर्क द्वारा दिया गया है)
- इसमें
Q
मूल्यांकन स्कोर के लिए एक शब्द है (मूल्य नेटवर्क द्वारा दिया गया है)
अब, हम जानते हैं कि हमारा दूसरा कदम अंततः चुना जाएगा। जब ऐसा होता है, तो मान नेटवर्क +1000 देता है। यह बढ़ेगा Q
, जो बाद के सिमुलेशन में दूसरी चाल को बहुत अधिक संभावना बनाता है ।
पर्याप्त सिमुलेशन को देखते हुए, सिमुलेशन के लिए दूसरी चाल को जितनी बार चुना जाता है, पहली चाल को चुने जाने की संख्या से अधिक होना चाहिए।
अंत में, अल्फ़ागो ने जो कदम उठाने का फैसला किया, वह है (कागज से उद्धृत):
एक बार खोज पूरी हो जाने के बाद, एल्गोरिथ्म रूट स्थिति से सबसे अधिक देखी गई चाल चुनता है।
दूसरा पॉलिसी नेटवर्क के साथ खेलना
हमारे दूसरे पॉलिसी नेटवर्क को मूव 2 लेने के लिए कम पुनरावृत्तियों की आवश्यकता होगी क्योंकि यह पॉलिसी नेटवर्क द्वारा दी गई पूर्व संभावना पहले स्थान पर सही है।
टिप्पणियों
यहां सब कुछ Bayesian
विश्लेषण के समान है । हम कुछ पूर्व संभाव्यता (पॉलिसी नेटवर्क द्वारा दिए गए) से शुरू करते हैं, फिर हम संभाव्यता भेद (मान नेटवर्क द्वारा दिए गए) को स्थानांतरित करने के लिए डेटा उत्पन्न करते हैं।
सारांश
- मोंटे-कार्लो खोज को क्या कदम उठाना चाहिए, इसका मार्गदर्शन करने के लिए पूर्व संभाव्यता उत्पन्न करने के लिए नीति नेटवर्क का उपयोग किया जाता है
- मान नेटवर्क का उपयोग नीति नेटवर्क को मान्य करने के लिए डेटा उत्पन्न करने के लिए किया जाता है। यदि नीति नेटवर्क खराब है, तो AlphaGo को (यदि कभी हो) अभिसरण करने के लिए अधिक कंप्यूटिंग संसाधनों की आवश्यकता होगी।
- आप इसे बायेसियन विश्लेषण की तरह सोच सकते हैं