अल्फ़ाज़ेरो पेपर में डिरिक्लेट शोर का उद्देश्य


10

DeepMind के दशक में AlphaGo शून्य और AlphaZero कागजात, वे जोड़ने का वर्णन Dirichlet रूट नोड मोंटे कार्लो ट्री खोजें में (बोर्ड राज्य) से कार्रवाई की पूर्व संभावनाओं को शोर:

अतिरिक्त अन्वेषण रूट नोड में पूर्व संभावनाओं के लिए डिरिचलेट शोर को जोड़कर प्राप्त किया जाता है रों0, विशेष रूप से पी(रों,)=(1-ε)पी+εη, कहाँ पे η~डिर(0.03) तथा ε=0.25; यह शोर सुनिश्चित करता है कि सभी चालों की कोशिश की जा सकती है, लेकिन खोज अभी भी खराब चालों पर काबू पा सकती है।

(अल्फा जीरो)

तथा:

डिरिचलेट शोर डिर(α)रूट नोड में पूर्व संभावनाओं में जोड़ा गया था; यह एक विशिष्ट स्थिति में कानूनी चाल की अनुमानित संख्या के विपरीत अनुपात में बढ़ाया गया था, के मूल्य के लिएα={0.3,0.15,0.03} क्रमशः शतरंज, शोगी और गो के लिए।

(AlphaZero)

दो बातें जो मुझे समझ में नहीं आती हैं:

  1. P(s, a) है एक n-डिमेटिक वेक्टर हैडिर(α) के साथ Dirichlet वितरण के लिए आशुलिपि n मापदंडों, प्रत्येक मूल्य के साथ α?

  2. मैं केवल बहुराष्ट्रीय वितरण से पहले कंजुगेट के रूप में डिरिचलेट में आया हूं। इसे यहां क्यों चुना गया?

संदर्भ के लिए, P(s, a)किसी दिए गए राज्य / कार्रवाई के लिए PUCT (बहुपद ऊपरी विश्वास वृक्ष, ऊपरी विश्वास सीमा पर एक प्रकार) गणना का सिर्फ एक घटक है। MCTS के दौरान अपने भाई-बहनों के बीच दी गई क्रिया को कितनी बार चुना गया है, इसके लिए यह एक स्थिर और एक मीट्रिक द्वारा बढ़ाया जाता है, और अनुमानित कार्रवाई मूल्य में जोड़ा जाता है Q(s, a):

  • PUCT(s, a) = Q(s, a) + U(s, a)
  • यू(रों,)=सीpuctपी(रों,)Σएन(रों,)1+एन(रों,)

2
ठीक है तो वास्तव में Dir (a) का मतलब Dir (a, ...) है। <1 के लिए, यह R ^ n के मानक आधार वैक्टर (छोटे, अधिक कसकर) के पास केंद्रित होगा। तो डिरिचलेट (ए) मदद करता है (1) मापदंडों के योग को स्थिर रखें, (2) आधार वैक्टर के पास केंद्रित करें, और (3) उनमें से कोई भी पसंद न करें।
भिक्षु

जवाबों:


6

प्रश्न 1 यहाँ सीधा है αदिए गए मूल्य के दोहराव का एक वेक्टर है। (जैसा कि मैक्स एस ने जवाब दिया)

प्रश्न 2 अधिक दिलचस्प है: डिरिचलेट वितरण की इस संदर्भ में निम्नलिखित व्याख्या प्रासंगिक है: कब α परिणाम संभावनाओं के साथ कुछ (अज्ञात) श्रेणीगत वितरण से निकाले गए परिणाम-मायने रखता का मनाया हुआ वेक्टर है π, फिर डीमैंआर(α)(π) संभावना है कि सीटी(π) आपको दिया गया वास्तविक अंतर्निहित वितरण है αमायने रखता है। (यह मूल रूप से दोहरे वितरण की परिभाषा है।)

अब P(s,a)इस संभावना का अनुमान लगाते हैं कि एक अच्छा खिलाड़ी किस खेल aमें खेलेगा s, यह उसके श्रेणीबद्ध वितरण का मापदंड है, जिसे अल्फाजो सीखना चाहता है। इसलिएडीमैंआर(α) के लिए उचित अनुमान नमूना होगा पीमैं=P(s,a) अगर हमने एक अच्छे खिलाड़ी के खेल चाल का अवलोकन किया α-times। लेकिन अगर कुछαमैं=0, फिर सब π~डीमैंआर(α) है πमैं=0, अन्वेषण को रोकना। शोर को जोड़कर वे मान लेते हैं कि उन्होंने हर चाल को कुछ छोटी संख्या में खेला हैα (यहां 0.3, 0.15, 0.03 चुना गया)।

के रूप में वे कैसे स्थिरांक मिला, मेरा अनुमान है कि वे मान लिया है कि हर खेल में ~ 10 यादृच्छिक नाटकों: शतरंज में, डीमैंआर(0.3)मान लें कि आपने प्रत्येक चाल को 0.3 बार खेला है। यह देखते हुए कि ऑलिस के अनुसार ~ 35 चालें उपलब्ध हैं , लेखक मानते हैं कि आपने प्रत्येक नोड में ~ 10 यादृच्छिक चालें देखी हैं। गो में, यदि हम मानते हैं कि ~ 270 कानूनी चालें औसतन (361 बोर्ड पदों में से 3/4) हैं, तो हम ~ 8 यादृच्छिक चालों को देखने के बराबर देखते हैं। (मेरे पास शोगी के लिए डेटा नहीं है।)


3

प्रश्न संख्या 1 के लिए उत्तर हां है, αएक वेक्टर है, लेकिन इस मामले में सभी मूल्य समान हैं। विकिपीडिया के अनुसार , इसे एक सममित डिरिचलेट वितरण कहा जाता है, और इसका उपयोग तब किया जाता है जब "एक घटक को दूसरे पर उपकार करने वाला कोई पूर्व ज्ञान नहीं होता है"। इस मामले में इसका मतलब है कि आप किसी विशेष घटक के लिए अधिक शोर नहीं जोड़ना चाहते हैं।

प्रश्न 2 के लिए, एक डिरिचलेट वितरण से तैयार किए गए नमूनों में संपत्ति है जो तत्व 1 को योग करेंगे। मुझे लगता है कि वे इसका उपयोग यह सुनिश्चित करने के लिए कर रहे हैं कि शोर को जोड़ने के बाद, और तत्व अभी भी 1 के लिए योग करेंगे।


धन्यवाद। एक (जिसे हम मनमाने ढंग से वितरण के कुछ सेट को स्केल करके भी कर सकते हैं) के अलावा, यह मानक आधार वैक्टर को प्राथमिकता देता है। यह उपयोगी लगता है।
भिक्षु
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.