मुझे लगता है कि यह सबसे अच्छा है अगर मैं आपके दूसरे बिंदु पर विस्तार से एक उदाहरण के साथ खेल 1 में अल्फ़ाज़ेरो और स्टॉकफ़िश के बीच चलता हूं, जो आज मेरी जिज्ञासा को संतुष्ट करने के लिए काम करता है।
1 मिनट / चाल की समय सीमा (यह नुकसान स्टॉकफ़िश कैसे होगा?)
स्टॉकफिश का प्रदर्शन समय सीमा और हार्डवेयर कॉन्फ़िगरेशन दोनों पर निर्भर करता है, इसलिए बस यह सोचें कि जब कोई व्यक्ति सीपीयू थ्रेड को दोगुना करता है, तो स्टॉकफिश को पहले कॉन्फ़िगरेशन के साथ समाधान खोजने के लिए कम समय (जरूरी नहीं कि आधा) की आवश्यकता हो।
पहली रिपोर्ट पर जो शतरंज डॉट कॉम पर पोस्ट की गई थी, किसी ने दावा किया कि स्टॉकफिश आशा से नहीं खेल रहा था क्योंकि वह अपने कंप्यूटर पर एक ही स्टॉकफिश का उपयोग करके समान परिणाम नहीं दे सकता था। उन्होंने कहा कि नीचे की स्थिति पर (खेल 1 - चाल 11) स्टॉकफिश ने Kg1-h1 (अपने राजा को स्थानांतरित किया) खेला जो बिल्कुल भी समझ में नहीं आया। दूसरी ओर, उनके कंप्यूटर पर स्टॉकफ़िश ने Be3 की तरह एक और अधिक विकासशील कदम दिखाया (डार्क स्क्वायर बिशप ले जाएँ), स्थिति को देखने देता है:
हां, यह एक निष्क्रिय कदम था और ऐसा लगता है कि स्टॉकफिश को अधिक विकासशील कदम खेलना चाहिए था। लेकिन वह गलत था। क्यूं कर? क्योंकि उन्होंने स्टॉकफिश को 15 सेकंड के लिए दौड़ाया था, और अगर उन्होंने इसे एक घंटे के लिए चलाया होता तो वह Kg1-h1 को उस स्थिति में सर्वश्रेष्ठ चाल के रूप में प्राप्त कर लेते। स्टॉकफिश परिवर्तन यह निर्णय है जब यह अधिक गहराई में सभी संभावित चालों का विश्लेषण करता है। यहाँ मैंने अपने उत्तर में मूल रूप से क्या कहा है :
मैंने नवीनतम स्टॉकफ़िश को स्थिति पर ले जाया (11 कदम पर):
- सबसे पहले, यह b4 को इष्टतम चाल के रूप में देता है जब इंजन लगभग एक मिनट के लिए चल रहा होता है। उसके बाद, यह तय करता है कि बी 3 बेहतर है।
लेकिन मेरे हार्डवेयर पर 5 मिनट के बाद जो 1,400k नोड्स पर चलता है / यह इष्टतम कदम के रूप में Kh1 के साथ जाने का निर्णय करेगा।
कागज में, यह कहा जाता है कि स्टॉकफिश प्रति सेकंड 70,000k पदों की गणना करता है और प्रति मिनट 1 मिनट के लिए चलाया जाता है, यह मेरे हार्डवेयर के बारे में 50 गुना है, इसलिए मैं 50 मिनट के लिए खदान चलने दूंगा ... Kg1-h1 अभी भी है स्टॉकफिश के लिए विकल्प।
समय सीमा कुंजी है
उपरोक्त मामले में, शायद यह ज्यादा मायने नहीं रखता था कि अगर स्टॉकफिश दो बार भागती है क्योंकि निर्णय समान होता, लेकिन अगली चाल पर यह निश्चित रूप से होता :
इस स्थिति में, स्टॉकफिश ने प्यादा को बाईं ओर स्थानांतरित करने का विकल्प चुना ( a4-a5 )। मान लीजिए कि मेरे पास एक कंप्यूटर है जो स्टॉकफिश इंजन को 1,400k नोड्स प्रति सेकंड की गति से चलाता है, यह वास्तविक गेम में स्टॉकफिश की तुलना में लगभग 50 गुना कम है ( कागज में , यह 70,000kn / s कहता है)। इसलिए मैं खेल को अनुकरण कर सकता हूं अगर मैं इसे प्रत्येक चाल पर 50 मिनट तक चलाऊं। ठीक है।
मैंने उपरोक्त स्थिति पर स्टॉकफ़िश विश्लेषण चलाया और मुझे निम्नलिखित परिणाम मिले:
- स्टॉकफिश ने कुछ चालों का सुझाव देना शुरू किया, लेकिन मेरे कंप्यूटर पर 6 मिनट के बाद ( वास्तविक गेम में स्टॉकफिश पर 7.2 सेकंड से मेल खाती है ) यह ए 4-ए 5 को पसंद करता था, जैसा कि गेम चला गया ।
यह अच्छा है, लेकिन मैंने इसे खेल में स्टॉकफिश की गणनाओं तक पहुंचने के लिए इसे पूरे 50 मिनट तक चालू रखा, जिसमें 1 मिनट की अनुमति थी:
दुखद सच्चाई यह है कि मेरा मानना है कि समय सीमा के कारण स्टॉकफिश ने अपने सभी खेल खो दिए। स्टॉकफिश को समय बीतने के साथ-साथ अधिक गहराई से खोज और मूल्यांकन मिलता है और खेल में इसे एक शुरुआती किताब का उपयोग करने की अनुमति नहीं थी, जो इसे उथले गहराई में कई चालों पर विचार करती है। ध्यान दें कि वास्तविक गेम में a4-a5 खेला गया था जो दिखाता है कि (यह मानकर कि यह प्रति सेकंड 70 मिलियन पदों का मूल्यांकन कर सकता है) खेल में स्टॉकफिश ने इस कदम पर 21.6 सेकंड से अधिक खर्च नहीं किया। अन्यथा, यह वास्तविक खेल में उन तीन अन्य चालों के लिए अपने निर्णय को बदल देता। इसका कारण अभी भी मेरे लिए स्पष्ट नहीं है क्योंकि मेरा स्टॉकफिश भी कम मेमोरी ( मूल कागज में वर्णित 1 जीबी की तुलना में ~ 130 एमबी रैम का उपभोग कर रहा था , यह मानते हुए कि यह सभी हैश टेबल पर जाता है)।
निष्कर्ष
स्टॉकफिश को चलाने वाला हार्डवेयर, जैसा कि मैंने बताया, मेरे द्वारा किए गए कदम के आधार पर मेरा (अपडेट: सिंगल कोर पर) की तुलना में सबसे अच्छा 18 गुना तेज था। मुझे यकीन नहीं है कि अगर अल्फाजो 4 घंटे में अपने नेटवर्क को प्रशिक्षित करने के लिए वास्तव में ऐसे हार्डवेयर का उपयोग कर सकता है, तो मैं केवल यह मान सकता हूं कि शतरंज जैसे खेल के लिए यह बहुत कम है। इसके अलावा, अल्फाज़ेरो ने उन घंटों को सीखने में बिताया, जिसमें ठोस उद्घाटन भी शामिल है (और जैसा कि पेपर बताता है, कुछ विशिष्ट उद्घाटन पर प्राथमिकताएं)। दूसरी ओर, स्टॉकफिश को उद्घाटन पर विकलांग किया गया था, और इसने प्रत्येक चाल पर 60 सेकंड के लिए प्रति सेकंड 70 मिलियन पदों का मूल्यांकन नहीं किया था।
अंतिम नोट के रूप में, मैंने जो कुछ भी कहा वह मेरी मान्यताओं पर आधारित था। बेशक, अल्फ़ाज़ेरो और खेल के परिणाम मेरे लिए सुपर दिलचस्प थे। हालाँकि, मुझे एक ऐसा खेल देखना पसंद था जहाँ स्टॉकफिश का खेल वैसा ही हो जैसा मुझे अपने कंप्यूटर पर मिलता है। यही है, अधिक समय और एक प्रारंभिक पुस्तक की अनुमति है। हर कदम पर स्टॉकफिश विश्लेषण के आउटपुट प्राप्त करना भी आसान है, और मैं चाहता हूं कि वे इसे जारी करें ताकि यह प्रदर्शित हो सके कि यह कितना अच्छा प्रदर्शन किया है।