क्या है AlphaGo के पेपर में रोलआउट नीति?

कागज यहाँ है ।

रोलआउट नीति ... एक रैखिक सॉफ्टमैक्स नीति है जो तेज, वृद्धिशील रूप से गणना, स्थानीय पैटर्न-आधारित सुविधाओं पर आधारित है ...

मुझे समझ में नहीं आ रहा है कि रोलआउट नीति क्या है, और यह कैसे एक चाल का चयन करने के नीति नेटवर्क से संबंधित है। कोई सरल व्याख्या?

— नमस्ते दुनिया
स्रोत

पेपर एक

— पेवेल के

@xeon मैं उसकी मदद नहीं कर सकता। मेरे पास कागज तक पूरी पहुंच है लेकिन मैं इसे यहां (कॉपीराइट कानूनों) को अपलोड नहीं कर सकता। हो सकता है कि अगर आसपास किसी और की कॉपी है तो गूगल?

— हेलोवर्ल्ड

@xeon airesearch.com/wp-content/uploads/2016/01/…

— dsaxton

ऐसा लगता है कि नीति नेटवर्क एक प्रायिकता वितरण निर्धारित करता है संभव चाल से अधिक जब खेल राज्य में । जब प्रोग्राम गेम ट्री की खोज कर रहा होता है तो यह एक यादृच्छिक फैशन में होता है, और यह निर्धारित करता है कि यह इस खोज को कैसे करता है। उम्मीद है कि यह समारोह अच्छी चाल के लिए कार्यक्रम को "निर्देशित" करेगा जो एक मजबूत खिलाड़ी बनाने की संभावना है। यह समझ में आता है क्योंकि जब आप गेम ट्री को खोजते हैं तो एक बुद्धिमान प्रतिद्वंद्वी के खिलाफ वर्तमान बोर्ड की स्थिति का मूल्यांकन करते समय गलतियों से शुरू होने वाली शाखाएं कम प्रासंगिक होती हैं। $p(a \mid s)$ $a$ $s$ $p$

जब वे कहते हैं कि रोलआउट नीति (मेरा मानना है कि उन्होंने बैकगैमौन से "रोलआउट" शब्द उधार लिया है) एक लीनियर सॉफ्टमैक्स फ़ंक्शन है जो वे लॉजिस्टिक रिग्रेशन में उपयोग किए जाने वाले सिग्मोइड फ़ंक्शन के सामान्यीकरण की बात कर रहे हैं। यह फ़ंक्शन रूप लेता है

\frac{e^{β_{i}^{T} x}}{\sum_{j = 1}^{k} e^{β_{j}^{T} x}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

जहां एक वेक्टर है जो वर्तमान बोर्ड की स्थिति का एक फ़ंक्शन है (कागज के अनुसार रैखिक सॉफ्टमैक्स केवल पॉलिसी नेटवर्क के अंतिम चरण में उपयोग किया जाता है) और वजन का एक वेक्टर है जो एक साथ मिलकर संभावना को निर्धारित करते हैं कि पॉलिसी नेटवर्क कार्रवाई चयन करेगा । $x$ $\beta_i$ $a_i$

— dsaxton
स्रोत