DeepMind के दशक में AlphaGo शून्य और AlphaZero कागजात, वे जोड़ने का वर्णन Dirichlet रूट नोड मोंटे कार्लो ट्री खोजें में (बोर्ड राज्य) से कार्रवाई की पूर्व संभावनाओं को शोर:
अतिरिक्त अन्वेषण रूट नोड में पूर्व संभावनाओं के लिए डिरिचलेट शोर को जोड़कर प्राप्त किया जाता है , विशेष रूप से , कहाँ पे तथा ; यह शोर सुनिश्चित करता है कि सभी चालों की कोशिश की जा सकती है, लेकिन खोज अभी भी खराब चालों पर काबू पा सकती है।
(अल्फा जीरो)
तथा:
डिरिचलेट शोर रूट नोड में पूर्व संभावनाओं में जोड़ा गया था; यह एक विशिष्ट स्थिति में कानूनी चाल की अनुमानित संख्या के विपरीत अनुपात में बढ़ाया गया था, के मूल्य के लिए क्रमशः शतरंज, शोगी और गो के लिए।
(AlphaZero)
दो बातें जो मुझे समझ में नहीं आती हैं:
P(s, a)
है एक -डिमेटिक वेक्टर है के साथ Dirichlet वितरण के लिए आशुलिपि मापदंडों, प्रत्येक मूल्य के साथ ?मैं केवल बहुराष्ट्रीय वितरण से पहले कंजुगेट के रूप में डिरिचलेट में आया हूं। इसे यहां क्यों चुना गया?
संदर्भ के लिए, P(s, a)
किसी दिए गए राज्य / कार्रवाई के लिए PUCT (बहुपद ऊपरी विश्वास वृक्ष, ऊपरी विश्वास सीमा पर एक प्रकार) गणना का सिर्फ एक घटक है। MCTS के दौरान अपने भाई-बहनों के बीच दी गई क्रिया को कितनी बार चुना गया है, इसके लिए यह एक स्थिर और एक मीट्रिक द्वारा बढ़ाया जाता है, और अनुमानित कार्रवाई मूल्य में जोड़ा जाता है Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
।- ।