जवाबों:
से दीप ढेर कागज :
यह प्रशिक्षण के लिए लगता है:
टर्न नेटवर्क के लिए, 175 मिलियन से अधिक संगणना समय का उपयोग करते हुए, गणना क्यूबेक एमपी 2 अनुसंधान क्लस्टर के 6,144 सीपीयू कोर के साथ दस मिलियन पोकर टर्न स्थितियों (टर्न कार्ड के बाद से निपटा जाता है) उत्पन्न और हल किया गया था। फ्लॉप नेटवर्क के लिए, एक मिलियन पोकर फ्लॉप स्थितियों (फ्लॉप कार्ड के निपटाए जाने के बाद) उत्पन्न और हल किए गए थे। इन स्थितियों को टर्न कार्ड के तुरंत बाद सार्वजनिक राज्यों में नकली मूल्यों के लिए उपयोग किए जाने वाले टर्न नेटवर्क के साथ डीपस्टैक की गहराई सीमित सॉल्वर का उपयोग करके हल किया गया था। हमने 20 जीपीयूएस के क्लस्टर का उपयोग किया और कम्प्यूटिंग समय के एक GPU वर्ष का आधा हिस्सा। सहायक नेटवर्क के लिए, दस मिलियन परिस्थितियां उत्पन्न हुईं और सभी 22,100 संभावित फ्लॉपों की गणना करके लक्ष्य मान प्राप्त किए गए और फ्लॉप नेटवर्क के आउटपुट से जवाबी मूल्यों का औसत निकला।
और यह वास्तविक खेलने के लिए:
फिर से हल करने वाले संगणना और तंत्रिका नेटवर्क के मूल्यांकन दोनों Torch7 (53) में कार्यान्वित किए जाते हैं और एक एकल NVIDIA GeForce GTX 1080 ग्राफिक्स कार्ड पर चलते हैं।
तुलना के लिए: AlphaGo के वितरित संस्करण को चलाने के लिए 1.920 CPU और 280 GPU लगे।