क्या है AlphaGo के पेपर में रोलआउट नीति?


11

कागज यहाँ है

रोलआउट नीति ... एक रैखिक सॉफ्टमैक्स नीति है जो तेज, वृद्धिशील रूप से गणना, स्थानीय पैटर्न-आधारित सुविधाओं पर आधारित है ...

मुझे समझ में नहीं आ रहा है कि रोलआउट नीति क्या है, और यह कैसे एक चाल का चयन करने के नीति नेटवर्क से संबंधित है। कोई सरल व्याख्या?


पेपर एक
पेवेल के

@xeon मैं उसकी मदद नहीं कर सकता। मेरे पास कागज तक पूरी पहुंच है लेकिन मैं इसे यहां (कॉपीराइट कानूनों) को अपलोड नहीं कर सकता। हो सकता है कि अगर आसपास किसी और की कॉपी है तो गूगल?
हेलोवर्ल्ड

जवाबों:


11

ऐसा लगता है कि नीति नेटवर्क एक प्रायिकता वितरण निर्धारित करता है संभव चाल से अधिक जब खेल राज्य में । जब प्रोग्राम गेम ट्री की खोज कर रहा होता है तो यह एक यादृच्छिक फैशन में होता है, और यह निर्धारित करता है कि यह इस खोज को कैसे करता है। उम्मीद है कि यह समारोह अच्छी चाल के लिए कार्यक्रम को "निर्देशित" करेगा जो एक मजबूत खिलाड़ी बनाने की संभावना है। यह समझ में आता है क्योंकि जब आप गेम ट्री को खोजते हैं तो एक बुद्धिमान प्रतिद्वंद्वी के खिलाफ वर्तमान बोर्ड की स्थिति का मूल्यांकन करते समय गलतियों से शुरू होने वाली शाखाएं कम प्रासंगिक होती हैं।एक रों पीp(as)asp

जब वे कहते हैं कि रोलआउट नीति (मेरा मानना ​​है कि उन्होंने बैकगैमौन से "रोलआउट" शब्द उधार लिया है) एक लीनियर सॉफ्टमैक्स फ़ंक्शन है जो वे लॉजिस्टिक रिग्रेशन में उपयोग किए जाने वाले सिग्मोइड फ़ंक्शन के सामान्यीकरण की बात कर रहे हैं। यह फ़ंक्शन रूप लेता है

eβiTxj=1keβjTx

जहां एक वेक्टर है जो वर्तमान बोर्ड की स्थिति का एक फ़ंक्शन है (कागज के अनुसार रैखिक सॉफ्टमैक्स केवल पॉलिसी नेटवर्क के अंतिम चरण में उपयोग किया जाता है) और वजन का एक वेक्टर है जो एक साथ मिलकर संभावना को निर्धारित करते हैं कि पॉलिसी नेटवर्क कार्रवाई चयन करेगा ।β मैं एक मैंxβiai

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.