अल्फा गो के नीति नेटवर्क और मूल्य नेटवर्क के बीच अंतर


25

मैं Google के AlphaGo ( http://googleresearch.blogspot.co.uk/2016/01///pphago-mastering-ancient-game-of-go.html ) के बारे में एक उच्च स्तरीय सारांश पढ़ रहा था , और मैं इस नीति के बारे में आया था। नेटवर्क "और" मूल्य नेटवर्क "। उच्च स्तर पर, मैं समझता हूं कि नीति नेटवर्क का उपयोग चालों का सुझाव देने के लिए किया जाता है और मूल्य नेटवर्क का उपयोग किया जाता है, "खोज ट्री की गहराई कम करें [और अनुमान करें] सभी तरह से खोज के स्थान पर प्रत्येक स्थिति में विजेता खेल का अंत। "

ये दो नेटवर्क मुझे बेमानी लगते हैं। नीति नेटवर्क क्या कर रहा है यदि वह अपनी नीतियों के लिए मूल्य नेटवर्क का उपयोग नहीं कर रहा है? यह बहुत स्पष्ट लगता है कि मूल्य नेटवर्क एक गहन शिक्षण तंत्रिका नेटवर्क है; क्या नीति नेटवर्क सिर्फ एक सैद्धांतिक अमूर्त है और एक वास्तविक तंत्रिका नेटवर्क नहीं है? मान नेटवर्क के लिए लक्ष्य चर जीत / हानि प्रतीत होता है। क्या नीति नेटवर्क के लिए कोई लक्ष्य चर है; यदि ऐसा है, तो ये क्या है? नीति नेटवर्क क्या अनुकूलन करने की कोशिश कर रहा है?

नेचर में प्रकाशित Google के पेपर की पूरी पीडीएफ यहां देखी जा सकती है: https://vk.com/doc-44016343_437229031?dl=56ce06e325d42fbc72


एक त्वरित नोट के रूप में: पॉलिसी नेटवर्क के लिए लक्ष्य चर एक प्रायिकता वितरण है। कागज से: "इस तंत्रिका नेटवर्क (मूल्य नेटवर्क) में नीति नेटवर्क के समान वास्तुकला है, लेकिन संभावना वितरण के बजाय एक ही भविष्यवाणी का उत्पादन करता है"
Zimano

3
यदि कोई भी मेरे जैसे पुराने प्रश्न पर ठोकर खाता है, तो आपको यह जानकर प्रसन्नता होगी कि AlphaGo के उत्तराधिकारी, "AlphaGo Zero", साथ ही इसके उत्तराधिकारी "AlphaZero" वास्तव में केवल इस प्रशिक्षण के द्वारा अतिरेक से छुटकारा पा लेते हैं, जिसके परिणाम दोनों पॉलिसी नेटवर्क के कार्यों की सेवा करें (संभावित चालों पर संभाव्यता वितरण देता है) और मूल्य नेटवर्क (बोर्ड दिए गए जीतने की संभावना देता है)। यहाँ ब्लॉग पोस्ट: deepmind.com/blog/alphago-zero-learning-scratch और कागज भीतर जुड़ा हुआ है।
केविन वांग

जवाबों:


11

संक्षेप में प्रत्येक नेट का एक अलग उद्देश्य है जैसा आपने उल्लेख किया है:

  • वृक्ष खोज की गहराई को कम करने के लिए पत्ती के नोड्स पर मूल्य नेटवर्क का उपयोग किया गया था।
  • नीति नेटवर्क का उपयोग एक नोड से खोज की चौड़ाई को कम करने के लिए किया गया था (तत्काल कार्यों का वादा करने की दिशा में)।

सामान्य तौर पर, आप एक पैरामीट्रिज्ड पॉलिसी फ़ंक्शन (बेशक पेशेवरों और विपक्ष हैं) का अनुकूलन करने के लिए एक इष्टतम नीति खोजने या नीति स्थान में सीधे खोज करने के लिए मान फ़ंक्शन विधियों का उपयोग कर सकते हैं। आप प्रत्येक मामले में फ़ंक्शन सन्निकटन (जैसे डीप नेट) का उपयोग कर सकते हैं। मैं देखता हूं कि मुख्य रूप से आप पॉलिसी नेट के बारे में उलझन में हैं इसलिए मैं इस पर अपना जवाब केंद्रित करता हूं।

पॉलिसी नेट पहले था:

चालें करने के लिए प्रशिक्षित किया जाता है कि सबसे अधिक संभावना है कि एक मानव को एक बोर्ड राज्य दिया जाएगा (इसलिए इनपुट एक बोर्ड राज्य है और आउटपुट एक हिस्टोग्राम है जो उस राज्य को दिए गए प्रत्येक कार्य की संभावना को दर्शाता है)। नेट राज्यों से कार्यों के लिए मानचित्रण अंतर्निहित अंतर्निहित फ़ंक्शन को अनुमानित कर सकता है। यह सब के बाद उपलब्ध आंकड़ों से अपनी नीति का निर्माण शुरू करने के लिए सोचना उचित है। विशेषज्ञों के प्रयोग से प्रशिक्षित प्रशिक्षण के बाद नीति नेट गेम को पर्याप्त रूप से खेल सकती है (हालांकि एक मास्टर के स्तर से बहुत दूर)। बस, आपने पेशेवर खिलाड़ियों के चयन के सामान्य पैटर्न को पकड़ने का प्रयास किया।

फिर,

पिछली-सीखी गई नीति को अनुकूलित करने के लिए, इसे प्रतिद्वंद्वी के साथ खेलों में प्रशिक्षित किया गया था। इस बार इसका वजन REINFORCE एल्गोरिथ्म का उपयोग करके अपडेट किया गया था। ऐसा करने से, आप अपेक्षित प्रतिफल को अधिकतम करने के लिए शुद्ध मापदंडों को अपडेट करते हैं। आखिरकार आपके पास एक जाल है जो न केवल एक पेशेवर खिलाड़ी की तरह कार्यों का चयन करता है, बल्कि गेम जीतने की दिशा में भी है (हालांकि यह योजना नहीं बना सकता है)।

इस कदम के बाद, उन्होंने प्रतिगमन द्वारा सीखे गए नीति के थोड़ा अधिक शोर संस्करण के मूल्य समारोह का अनुमान लगाया है (इनपुट राज्य बोर्ड है और खेल के परिणाम को लक्षित करें)। लीफ नोड मूल्यांकन को प्रभावित करने के लिए आप इस नेटवर्क का उपयोग कर सकते हैं।

वैचारिक रूप से, पॉलिसी नेट आपको कार्यों पर एक संभावना देता है, लेकिन यह इंगित नहीं करता है कि आप खेल, राज्य जीतने के लिए एक अच्छा अंत करेंगे। AlphaGo के पास कुछ "ब्लाइंड स्पॉट" थे और टूर्नामेंट के दौरान कुछ बहुत ही बुरे कदम हुए लेकिन एक ऐसा असाधारण कदम जो किसी इंसान ने कभी सोचा भी नहीं था।

अंत में आप इन नेट्स के संयोजन में अपने नियोजन एल्गोरिदम (MCTS) का उपयोग कर सकते हैं। हमने ये सब कदम क्यों उठाए? संक्षेप में, बिना किसी "अंतर्ज्ञान" के सरल MCTS विफल हो जाता।


मैं बस इस सवाल पर लौट रहा था कि एक्टर-क्रिटिक के बारे में क्या पता चला है, और यह कैसे ऑफर्स / फायदे के बीच शुद्ध मूल्य आधारित नीति नीति तरीकों के बीच है। मुझे लगता है कि यह विवरण इस विवरण को समझने के लिए निकटतम है, लेकिन यह डेविड सिल्वर के व्याख्यान में बहुत अच्छी तरह से कवर किया गया है: www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/pg.pdf (व्याख्यान 7, यह) YouTube पर भी उपलब्ध है - youtube.com/… )।
नील स्लाटर

शुद्ध एमसीटीएस-आधारित दृष्टिकोणों ने हालांकि सफल होना दिखाया है, इसलिए एक व्यापक संदर्भ में मैं यह नहीं कहूंगा कि यह विफल हो गया।
ज़िमानो

1
मैं केवल गो खेल के मामले की बात कर रहा हूं और खेल के मास्टर स्तर तक पहुंचने के बारे में भी। दरअसल डेविड सिल्वर (अन्य शोधकर्ताओं के रूप में) अपनी पीएचडी के बाद से गो विद एमसीटीएस के खेल को सुलझाने पर काम कर रहे थे। लेकिन ऊपर के तरीकों के संयोजन तक उच्चतम स्तरों पर कुछ भी प्रतिस्पर्धा नहीं कर सका।
कॉन्सटेंटिनो

9

यहाँ दो अलग नेटवर्क को समझने में मेरी संक्षिप्त विचार प्रक्रिया है।

सबसे पहले, लक्ष्य एक संपूर्ण खोज का उपयोग किए बिना एक इष्टतम समाधान (या बहुत निकट-इष्टतम) खोजना है, जो निश्चित रूप से चुनौतीपूर्ण है।

प्रति स्थिति या स्थिति के अनुसार, एन चालें संभव होंगी, और प्रत्येक चाल पर पूर्ण खोज ट्री में अपनी स्वयं की गहराई डी होगी। सभी रास्तों से चलना और एक इष्टतम समाधान (रों) खोजना सैद्धांतिक रूप से या गणितीय रूप से संभव है। हालाँकि, हम पूर्ण खोज नहीं करना चाहते हैं।

अब हमें एक अनुमान दृष्टिकोण विकसित करने के लिए दो अलग-अलग प्रश्न मिले।

Q1। हम प्रति स्थिति N से बाहर कुछ चालों को कैसे छोड़ या अस्वीकृत कर सकते हैं? (यानी, सांस में कमी)

Q2। गेम के अंत तक चलने के बजाय एक इष्टतम पेड़ में हम एक मध्यवर्ती गहराई पर कैसे रोक सकते हैं, एक इष्टतम समाधान खोजने में असफल होने के बिना? (अर्थात, गहराई में कमी)

नीति नेटवर्क को मुख्य रूप से N से बाहर बेकार चाल को छानने के लिए बनाया गया है, फिर भी एक इष्टतम समाधान खोजने में विफल हुए बिना। यहाँ यह नेटवर्क शुरू में मानव विशेषज्ञ चाल पर निर्भर करता है, अर्थात, SL और बाद में RL द्वारा सुधार किया जाता है।

मूल्य नेटवर्क मुख्य रूप से पूर्ण खोज के बिना जीतने की संभावना खोजने के लिए डिज़ाइन किया गया है।

इन दोनों नेटवर्कों में एक इष्टतम समाधान खोजने का एक सामान्य लक्ष्य है, हालांकि, चाल की प्रत्येक रणनीतिक पसंद में, प्रत्येक नेटवर्क एक अलग भूमिका निभाता है।

मुझे उम्मीद है कि यह मदद करता है। मुझे पता है कि यह अभी भी उच्च स्तर पर होगा।


आपके दो तरीकों की व्याख्या बहुत संक्षिप्त है।
टिम

6

मुझे लगता है कि ओपी अल्फा-बीटा के साथ अल्फ़ाज़ो के बारे में भ्रमित कर रहा था। अल्फा-बीटा में, आप वास्तव में प्रूनिंग के साथ मदद करने के लिए नीति नेटवर्क का उपयोग करेंगे, लेकिन यहां नहीं। फिर से, कोई प्रूनिंग नहीं है क्योंकि एल्गोरिथ्म मोंटे-कार्लो ट्री सर्च (MCTS) पर निर्भर करता है।

जो कोई भी मेरा जवाब सोचता है, वह बहुत लंबे समय तक सारांश अनुभाग में जा सकता है, जहां मैं बताता हूं कि दो नेटवर्क क्यों बेमानी हैं।

निम्नलिखित उदाहरण में, मैं अपने विचारों को समझने में आसान बनाने के लिए कुछ सरलीकरण करूँगा।

उदाहरण:

कल्पना कीजिए कि आपके पास एक ऐसी स्थिति है जहां दो कानूनी कदम हैं। पहला कदम आपके लिए एक मृत-खोया है, हालांकि, दूसरा कदम आपको एक विजयी लाभ देता है।

  • पहला कदम: आपके लिए मजबूर नुकसान
  • दूसरा कदम: आप के लिए मजबूर जीत

मूल्यांकन नेटवर्क

आइए मान लें कि Google आपको जो मूल्यांकन नेटवर्क देता है वह सही है। यह हमारे उदाहरण में किसी भी पत्ती की स्थिति का पूरी तरह से मूल्यांकन कर सकता है। हम अपने मूल्य नेटवर्क को उदाहरण में नहीं बदलेंगे।

हमारे उदाहरण को सरल बनाने के लिए, मान लें कि हमारा मूल्य नेटवर्क देता है:

  • किसी भी पत्ती की स्थिति के लिए -1000 जो आपके लिए नुकसान दायक है
  • किसी भी पत्ती की स्थिति के लिए +1000 जो आपके लिए एक जीत है

नीति नेटवर्क

मान लेते हैं कि Google आपको दो नीति नेटवर्क देता है। हमारी स्थिति के लिए उत्पन्न संभावनाएं हैं:

  • नीति 1: चाल 1 के लिए 0.9 और चाल 2 के लिए 0.1
  • नीति 2: चाल 1 के लिए 0.2 और चाल 2 के लिए 0.8।

ध्यान दें कि हमारा पहला पॉलिसी नेटवर्क हमारे उदाहरण के लिए गलत पूर्व संभावना देता है । यह चाल 1 के लिए 0.9 देता है, जो एक हारने वाला कदम है। यह ठीक है क्योंकि Google भी एक संपूर्ण नीति नेटवर्क को प्रशिक्षित नहीं कर सकता है।

पहले पॉलिसी नेटवर्क के साथ खेलना

AlphaGo को मोंटे-कार्लो के साथ एक सिमुलेशन उत्पन्न करने की आवश्यकता है, और इसे 1 या 2 का चयन करने की आवश्यकता है। अब, AlphaGo एक समान रूप से वितरित यादृच्छिक चर खींचता है, और यह चुन लेगा:

  • अगर यादृच्छिक संख्या <= 0.9 है तो 1 को स्थानांतरित करें
  • यदि यादृच्छिक संख्या> 0.9 है तो 2 को स्थानांतरित करें

तो अल्फा गो बहुत अधिक संभावना है कि हारने वाले कदम को अनुकरण करने के लिए (हमारे पहले सिमुलेशन में)। हमारे पहले सिमुलेशन में, हम सिमुलेशन के लिए एक अंक प्राप्त करने के लिए मूल्य नेटवर्क का भी उपयोग करेंगे। कागज में, यह है:

यहाँ छवि विवरण दर्ज करें

यह मान -1000 होगा, क्योंकि इस सिमुलेशन से नुकसान होगा।

अब, AlphaGo को दूसरा सिमुलेशन तैयार करना होगा। फिर से, पहले कदम के लिए अधिक संभावना होगी। लेकिन अंततः, दूसरा कदम उठाया जाएगा क्योंकि:

  • दूसरी चाल के लिए हमारी पूर्व संभावना 0.1 है, शून्य नहीं
  • AlphaGo को उन चालों को आज़माने के लिए प्रोत्साहित किया जाता है जिन्हें बहुत अधिक नहीं समझा गया है। कागज में, यह इस समीकरण द्वारा किया जाता है:

यहाँ छवि विवरण दर्ज करें

ध्यान दें कि Nइस कदम के लिए खोज की गई चालों की संख्या है और यह हर में है। अधिक संभावना है कि हमारा पहला कदम खोजा गया है, यह uकार्य जितना छोटा है। इस प्रकार, हमारे दूसरे कदम के चयन की संभावना में सुधार होता है क्योंकि अल्फा गो वास्तव में इस समीकरण द्वारा एक चाल चुनता है:

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

यह प्रमुख समीकरण है। कृपया इसे ध्यान से देखें:

  • इसकी Pपूर्व संभावना के लिए एक शब्द है (पॉलिसी नेटवर्क द्वारा दिया गया है)
  • इसमें Qमूल्यांकन स्कोर के लिए एक शब्द है (मूल्य नेटवर्क द्वारा दिया गया है)

अब, हम जानते हैं कि हमारा दूसरा कदम अंततः चुना जाएगा। जब ऐसा होता है, तो मान नेटवर्क +1000 देता है। यह बढ़ेगा Q, जो बाद के सिमुलेशन में दूसरी चाल को बहुत अधिक संभावना बनाता है ।

पर्याप्त सिमुलेशन को देखते हुए, सिमुलेशन के लिए दूसरी चाल को जितनी बार चुना जाता है, पहली चाल को चुने जाने की संख्या से अधिक होना चाहिए।

अंत में, अल्फ़ागो ने जो कदम उठाने का फैसला किया, वह है (कागज से उद्धृत):

एक बार खोज पूरी हो जाने के बाद, एल्गोरिथ्म रूट स्थिति से सबसे अधिक देखी गई चाल चुनता है।

दूसरा पॉलिसी नेटवर्क के साथ खेलना

हमारे दूसरे पॉलिसी नेटवर्क को मूव 2 लेने के लिए कम पुनरावृत्तियों की आवश्यकता होगी क्योंकि यह पॉलिसी नेटवर्क द्वारा दी गई पूर्व संभावना पहले स्थान पर सही है।

टिप्पणियों

यहां सब कुछ Bayesianविश्लेषण के समान है । हम कुछ पूर्व संभाव्यता (पॉलिसी नेटवर्क द्वारा दिए गए) से शुरू करते हैं, फिर हम संभाव्यता भेद (मान नेटवर्क द्वारा दिए गए) को स्थानांतरित करने के लिए डेटा उत्पन्न करते हैं।

सारांश

  • मोंटे-कार्लो खोज को क्या कदम उठाना चाहिए, इसका मार्गदर्शन करने के लिए पूर्व संभाव्यता उत्पन्न करने के लिए नीति नेटवर्क का उपयोग किया जाता है
  • मान नेटवर्क का उपयोग नीति नेटवर्क को मान्य करने के लिए डेटा उत्पन्न करने के लिए किया जाता है। यदि नीति नेटवर्क खराब है, तो AlphaGo को (यदि कभी हो) अभिसरण करने के लिए अधिक कंप्यूटिंग संसाधनों की आवश्यकता होगी।
  • आप इसे बायेसियन विश्लेषण की तरह सोच सकते हैं

मुझे लगता है कि इससे आंतरिक तंत्र को बहुत गहराई से जानकारी मिलती है। मुझे अभी भी यकीन नहीं है कि यह बताता है कि दो नेटवर्क क्यों। मेरे पास समस्या यह है कि "मूल्यांकन नेटवर्क ... सही है"। अगर ऐसा था, तो वास्तव में पॉलिसी नेटवर्क बेमानी है। बस एक कदम आगे देखें (सभी संभव कदमों के लिए) और एक को सर्वोत्तम मूल्य नेटवर्क मूल्यांकन के साथ चुनें। बेशक मूल्य नेटवर्क सही नहीं है, और मुझे संदेह है कि यह खेल में आगे बढ़ने के लिए अधिक सटीक है। । । लेकिन मुझे नहीं पता कि यह कितना सच है / उपयोगी है, या क्या यह इस जवाब को पूरा करता है।
नील स्लेटर

@NeilSlater ठीक है। नेटवर्क ओ.टी. परफेक्ट हैं, लेकिन मेरे पास जो कारण हैं वे अभी भी अच्छे हैं, बस हमें अधिक एमसी सिमुलेशन की आवश्यकता है।
स्मालचैस

@StudentT कुछ प्रमुख समीकरणों का अच्छा विवरण। मैं एक छोटा बदलाव करूंगा: मोंटे कार्लो ट्री सर्च में स्थिति को समझने के लिए "आपको दस कदम आगे देखने की जरूरत है" यह कहने का कोई मतलब नहीं है। MCTS एक गहराई-प्रथम प्रमाण संख्या खोज है, और हम वास्तव में कभी निश्चित गहराई तक नहीं पहुँचते हैं जैसे हम शतरंज में पुनरावृत्ति को गहरा करेंगे। यहां तक ​​कि मूल्य नेटवर्क के साथ हमें खेल के अंत से पहले नोड्स का मूल्यांकन करने की अनुमति देता है, हम अभी भी पहले तरीके से इन तक नहीं पहुंच रहे हैं, और नोड्स का कोई न्यूनतम-अधिकतम मूल्यांकन नहीं है, आदि
इमरान

@ मेरी पोस्ट को संपादित करने के लिए स्वतंत्र महसूस करें।
स्मालचैस

3

पॉलिसी नेटवर्क : वह नेटवर्क जो गेम को एक विशेष इनपुट देकर एक निश्चित आउटपुट देना सीखता है जिसे पॉलिसी नेटवर्क के रूप में जाना जाता है।

मूल्य नेटवर्क : मूल्य नेटवर्क वर्तमान स्थिति के लिए अपेक्षित संचयी स्कोर की गणना करके खेल की स्थिति में मूल्य / स्कोर प्रदान करता है s। हर राज्य मूल्य नेटवर्क से गुजरता है। जिन राज्यों को अधिक इनाम मिलता है वे स्पष्ट रूप से नेटवर्क में अधिक मूल्य प्राप्त करते हैं।

एनिमेशन के साथ बेहतर समझ यहां जाएं: सुदृढीकरण सीखने में नीति नेटवर्क बनाम मूल्य नेटवर्क

यहाँ छवि विवरण दर्ज करें


0

मैं जो अंतर समझता हूं, वह आउटपुट में है। जहां नीति नेटवर्क संभावित चालों पर एक संभाव्यता वितरण का उत्पादन करता है, मूल्य नेटवर्क एक वास्तविक मूल्य देता है जिसे इस बोर्ड कॉन्फ़िगरेशन को दिए गए जीतने की संभावना के रूप में व्याख्या किया जा सकता है। वहां से मोंटे-कार्लो ट्री सर्च टॉप के मूव्स के जरिए किया जाता है और फिर टॉप के वैल्यू नेटवर्क आउटपुट लेकर सर्च ट्री को फिर से सिक्योर किया जाता है।

गलत होने पर मुझे सही करने के लिए बाध्य महसूस करें।


2
आप गलत नहीं हैं AFAIK, लेकिन मुझे नहीं लगता कि यह सवाल का जवाब देता है। ओपी को आरएल में मूल्य-आधारित या नीति-आधारित मॉडल के बीच अंतर के बारे में पता लगता है। दो दृष्टिकोण वास्तव में अलग-अलग आउटपुट हैं। हालाँकि, एक या दूसरे को देखना आम बात है, दोनों को नहीं, और दो मॉडल आमतौर पर उस "मूल्य_मैक्सगर्ग (एस ') == पॉलिसी_मैक्सगर्ग (एस, ए)" में निरर्थक हैं जहां एस वर्तमान स्थिति है, ए पर कार्रवाई है ले, और एस 'परिणामी अवस्था है। यानी दो नेटवर्क अधिक सामान्य आरएल सेटअप में केवल एक ही परिणाम उत्पन्न करेंगे, भले ही आउटपुट अलग-अलग हों।
नील स्लेटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.