ऐसा लगता है कि नीति नेटवर्क एक प्रायिकता वितरण निर्धारित करता है संभव चाल से अधिक जब खेल राज्य में । जब प्रोग्राम गेम ट्री की खोज कर रहा होता है तो यह एक यादृच्छिक फैशन में होता है, और यह निर्धारित करता है कि यह इस खोज को कैसे करता है। उम्मीद है कि यह समारोह अच्छी चाल के लिए कार्यक्रम को "निर्देशित" करेगा जो एक मजबूत खिलाड़ी बनाने की संभावना है। यह समझ में आता है क्योंकि जब आप गेम ट्री को खोजते हैं तो एक बुद्धिमान प्रतिद्वंद्वी के खिलाफ वर्तमान बोर्ड की स्थिति का मूल्यांकन करते समय गलतियों से शुरू होने वाली शाखाएं कम प्रासंगिक होती हैं।एक रों पीपी ( एक | रों )एsp
जब वे कहते हैं कि रोलआउट नीति (मेरा मानना है कि उन्होंने बैकगैमौन से "रोलआउट" शब्द उधार लिया है) एक लीनियर सॉफ्टमैक्स फ़ंक्शन है जो वे लॉजिस्टिक रिग्रेशन में उपयोग किए जाने वाले सिग्मोइड फ़ंक्शन के सामान्यीकरण की बात कर रहे हैं। यह फ़ंक्शन रूप लेता है
eβTix∑kj=1eβTjx
जहां एक वेक्टर है जो वर्तमान बोर्ड की स्थिति का एक फ़ंक्शन है (कागज के अनुसार रैखिक सॉफ्टमैक्स केवल पॉलिसी नेटवर्क के अंतिम चरण में उपयोग किया जाता है) और वजन का एक वेक्टर है जो एक साथ मिलकर संभावना को निर्धारित करते हैं कि पॉलिसी नेटवर्क कार्रवाई चयन करेगा ।β मैं एक मैंxβiai