AlphaZero बनाम स्टॉकफिश मैच में हार्डवेयर का उपयोग किया गया


22

मैं समझता हूँ कि अल्फ़ाज़ेरो को नियमित स्टॉकफ़िश की तुलना में एक अलग तरह के हार्डवेयर का उपयोग करना पड़ता है। मुझे उम्मीद है कि हार्डवेयर का इंजन की ताकत पर बड़ा असर होगा। इसलिए मुझे आश्चर्य है कि क्या दोनों के लिए तुलनीय हार्डवेयर प्रदान करने के लिए कोई प्रयास किए गए हैं या नहीं। यहाँ भी "तुलनीय" का क्या अर्थ होगा?

विशेष रूप से मैंने पढ़ा कि लोग इसके बारे में शिकायत करते हैं:

  • स्टॉकफिश को केवल 1 जीबी कैश दिया जा रहा है, और
  • 1 मिनट / चाल की समय सीमा (यह नुकसान स्टॉकफ़िश कैसे होगा?)

हैश आकार, कैश नहीं, जाहिरा तौर पर।
फेडरिको पोलोनी

2
मैं दृढ़ता से एक तकनीकी मंच पर यह पूछने का सुझाव देता हूं (जैसे कि एआई स्टैक एक्सचेंज , शायद शीर्षक में "मूल्यांकन की निष्पक्षता बनाम स्टॉकहोम मैचों में"), क्योंकि यहां उत्तर अच्छे नहीं हैं।
विड्रैक

जवाबों:


20

इसलिए मुझे आश्चर्य है कि क्या दोनों के लिए तुलनीय हार्डवेयर प्रदान करने के लिए कोई प्रयास किए गए हैं या नहीं।

यह Google है जिसके बारे में आप बात कर रहे हैं! तो जवाब स्पष्ट रूप से "नहीं" है।

से मूल पत्र initialising और प्रशिक्षण के लिए इस्तेमाल हार्डवेयर -

प्रशिक्षण के लिए 700,000 कदम (आकार 4,096 के मिनी-बैच) को यादृच्छिक रूप से आरंभिक मापदंडों से शुरू किया गया, जिसमें 5,000 पहली पीढ़ी के टीपीयू (15) का उपयोग करके स्व-प्ले गेम और 64 दूसरी पीढ़ी के टीपीयू का उपयोग करके तंत्रिका नेटवर्क को प्रशिक्षित किया गया।

और खेल के लिए इस्तेमाल किया हार्डवेयर -

अल्फ़ाज़ेरो और पिछले अल्फ़ागो ज़ीरो ने 4 टीपीयू स्टॉकफिश के साथ एक एकल मशीन का इस्तेमाल किया और एल्मो ने 64 थ्रेड और 1 जीबी के हैश आकार का उपयोग करके अपने सबसे मजबूत कौशल स्तर पर खेला।

इसलिए, अल्फाज़ेरो ने Google द्वारा विकसित विशेष हार्डवेयर का उपयोग किया। यह सामान्य केंद्रीय प्रसंस्करण इकाइयों (सीपीयू) के बजाय विशेष सेंसर प्रोसेसर इकाइयों (टीपीयू) का उपयोग करता था, जो व्यावसायिक रूप से उपलब्ध हैं।

इसी तरह से विकिपीडिया दूसरी पीढ़ी के टीपीयू का वर्णन करता है जिसका उन्होंने उपयोग किया है -

दूसरी पीढ़ी के टीपीयू की घोषणा मई 2017 में की गई थी। गूगल ने पहली पीढ़ी के टीपीयू डिजाइन को मेमोरी बैंडविड्थ सीमित बताया था, और दूसरी पीढ़ी के डिजाइन में 16 जीबी की उच्च बैंडविड्थ मेमोरी का उपयोग करके बैंडविड्थ को 600 जीबी / एस और बैंडविड्थ को बढ़ाकर 45 टीएफएलओपीएस कर दिया। TPU को तब 4-चिप 180 TFLOPS मॉड्यूल में व्यवस्थित किया जाता है

उन्होंने खेलों के लिए 4 टीपीयू का उपयोग किया, इसलिए 180 टीएफएलओपीएस की एक प्रसंस्करण शक्ति। नोट TFLOPS = 1000 बिलियन फ्लोटिंग पॉइंट ऑपरेशंस प्रति सेकंड।

तुलना के लिए इंटेल का नवीनतम सबसे शक्तिशाली चिप कोर i9 एक्सट्रीम एडिशन प्रोसेसर है जो 1 टीएफएलओपी में देखता है। I7 की एक पंक्ति जो आपको एक गेमिंग मशीन में मिलेगी आमतौर पर लगभग 100 GFLOP (यानी TFLOP का दसवां हिस्सा) होगा।

मुझे लगता है कि यह कहना उचित है कि अल्फ़ाज़ेरो स्टॉकफिश माउस की तुलना में एक हार्डवेयर विन्यास के 800 पाउंड गोरिल्ला का उपयोग कर रहा था।


1
FLOPS प्रति सेकंड फ्लोटिंग पॉइंट ऑपरेशंस के लिए है। फ्लोटिंग पॉइंट अंकगणित का उपयोग शायद स्टॉकफिश और अल्फाज़ेरो के मुख्य एल्गोरिदम में बिल्कुल भी नहीं किया गया है। तो FLOPS की संख्या वास्तव में शतरंज इंजन के लिए प्रासंगिक प्रोसेसर गति का एक अर्थपूर्ण उपाय नहीं है।
रेनी पीजेल

9
इसके विपरीत, मेरा मानना ​​है कि तंत्रिका जाल फ्लोटिंग पॉइंट अंकगणित का काफी गहनता से उपयोग करते हैं। (लेकिन निश्चित रूप से आपकी टिप्पणी सही अर्थ बनाती है और स्टॉकफिश पर लागू होती है।)
फेडेरिको पोलोनी

3
एक GPU के साथ एक अधिक उपयुक्त तुलना होगी; NVIDIA Tesla V100 पिछली पीढ़ी (P100) से 120 TFLOPS कर सकता है, जिसने केवल 20 के बारे में किया था। CPUs को GPU की संख्याओं से बहुत अलग तरीके से अनुकूलित किया जाता है जो कि संख्याओं की सरासर मात्रा में होता है।
निक टी

12

मुझे लगता है कि यह सबसे अच्छा है अगर मैं आपके दूसरे बिंदु पर विस्तार से एक उदाहरण के साथ खेल 1 में अल्फ़ाज़ेरो और स्टॉकफ़िश के बीच चलता हूं, जो आज मेरी जिज्ञासा को संतुष्ट करने के लिए काम करता है।

1 मिनट / चाल की समय सीमा (यह नुकसान स्टॉकफ़िश कैसे होगा?)

स्टॉकफिश का प्रदर्शन समय सीमा और हार्डवेयर कॉन्फ़िगरेशन दोनों पर निर्भर करता है, इसलिए बस यह सोचें कि जब कोई व्यक्ति सीपीयू थ्रेड को दोगुना करता है, तो स्टॉकफिश को पहले कॉन्फ़िगरेशन के साथ समाधान खोजने के लिए कम समय (जरूरी नहीं कि आधा) की आवश्यकता हो।

पहली रिपोर्ट पर जो शतरंज डॉट कॉम पर पोस्ट की गई थी, किसी ने दावा किया कि स्टॉकफिश आशा से नहीं खेल रहा था क्योंकि वह अपने कंप्यूटर पर एक ही स्टॉकफिश का उपयोग करके समान परिणाम नहीं दे सकता था। उन्होंने कहा कि नीचे की स्थिति पर (खेल 1 - चाल 11) स्टॉकफिश ने Kg1-h1 (अपने राजा को स्थानांतरित किया) खेला जो बिल्कुल भी समझ में नहीं आया। दूसरी ओर, उनके कंप्यूटर पर स्टॉकफ़िश ने Be3 की तरह एक और अधिक विकासशील कदम दिखाया (डार्क स्क्वायर बिशप ले जाएँ), स्थिति को देखने देता है:

गेम 11 मूव 11 पर

हां, यह एक निष्क्रिय कदम था और ऐसा लगता है कि स्टॉकफिश को अधिक विकासशील कदम खेलना चाहिए था। लेकिन वह गलत था। क्यूं कर? क्योंकि उन्होंने स्टॉकफिश को 15 सेकंड के लिए दौड़ाया था, और अगर उन्होंने इसे एक घंटे के लिए चलाया होता तो वह Kg1-h1 को उस स्थिति में सर्वश्रेष्ठ चाल के रूप में प्राप्त कर लेते। स्टॉकफिश परिवर्तन यह निर्णय है जब यह अधिक गहराई में सभी संभावित चालों का विश्लेषण करता है। यहाँ मैंने अपने उत्तर में मूल रूप से क्या कहा है :

मैंने नवीनतम स्टॉकफ़िश को स्थिति पर ले जाया (11 कदम पर):

  • सबसे पहले, यह b4 को इष्टतम चाल के रूप में देता है जब इंजन लगभग एक मिनट के लिए चल रहा होता है। उसके बाद, यह तय करता है कि बी 3 बेहतर है।
  • लेकिन मेरे हार्डवेयर पर 5 मिनट के बाद जो 1,400k नोड्स पर चलता है / यह इष्टतम कदम के रूप में Kh1 के साथ जाने का निर्णय करेगा।

  • कागज में, यह कहा जाता है कि स्टॉकफिश प्रति सेकंड 70,000k पदों की गणना करता है और प्रति मिनट 1 मिनट के लिए चलाया जाता है, यह मेरे हार्डवेयर के बारे में 50 गुना है, इसलिए मैं 50 मिनट के लिए खदान चलने दूंगा ... Kg1-h1 अभी भी है स्टॉकफिश के लिए विकल्प।

समय सीमा कुंजी है

उपरोक्त मामले में, शायद यह ज्यादा मायने नहीं रखता था कि अगर स्टॉकफिश दो बार भागती है क्योंकि निर्णय समान होता, लेकिन अगली चाल पर यह निश्चित रूप से होता :

यहाँ छवि विवरण दर्ज करें

इस स्थिति में, स्टॉकफिश ने प्यादा को बाईं ओर स्थानांतरित करने का विकल्प चुना ( a4-a5 )। मान लीजिए कि मेरे पास एक कंप्यूटर है जो स्टॉकफिश इंजन को 1,400k नोड्स प्रति सेकंड की गति से चलाता है, यह वास्तविक गेम में स्टॉकफिश की तुलना में लगभग 50 गुना कम है ( कागज में , यह 70,000kn / s कहता है)। इसलिए मैं खेल को अनुकरण कर सकता हूं अगर मैं इसे प्रत्येक चाल पर 50 मिनट तक चलाऊं। ठीक है।

मैंने उपरोक्त स्थिति पर स्टॉकफ़िश विश्लेषण चलाया और मुझे निम्नलिखित परिणाम मिले:

  • स्टॉकफिश ने कुछ चालों का सुझाव देना शुरू किया, लेकिन मेरे कंप्यूटर पर 6 मिनट के बाद ( वास्तविक गेम में स्टॉकफिश पर 7.2 सेकंड से मेल खाती है ) यह ए 4-ए 5 को पसंद करता था, जैसा कि गेम चला गया

यह अच्छा है, लेकिन मैंने इसे खेल में स्टॉकफिश की गणनाओं तक पहुंचने के लिए इसे पूरे 50 मिनट तक चालू रखा, जिसमें 1 मिनट की अनुमति थी:

दुखद सच्चाई यह है कि मेरा मानना ​​है कि समय सीमा के कारण स्टॉकफिश ने अपने सभी खेल खो दिए। स्टॉकफिश को समय बीतने के साथ-साथ अधिक गहराई से खोज और मूल्यांकन मिलता है और खेल में इसे एक शुरुआती किताब का उपयोग करने की अनुमति नहीं थी, जो इसे उथले गहराई में कई चालों पर विचार करती है। ध्यान दें कि वास्तविक गेम में a4-a5 खेला गया था जो दिखाता है कि (यह मानकर कि यह प्रति सेकंड 70 मिलियन पदों का मूल्यांकन कर सकता है) खेल में स्टॉकफिश ने इस कदम पर 21.6 सेकंड से अधिक खर्च नहीं किया। अन्यथा, यह वास्तविक खेल में उन तीन अन्य चालों के लिए अपने निर्णय को बदल देता। इसका कारण अभी भी मेरे लिए स्पष्ट नहीं है क्योंकि मेरा स्टॉकफिश भी कम मेमोरी ( मूल कागज में वर्णित 1 जीबी की तुलना में ~ 130 एमबी रैम का उपभोग कर रहा था , यह मानते हुए कि यह सभी हैश टेबल पर जाता है)।


निष्कर्ष

स्टॉकफिश को चलाने वाला हार्डवेयर, जैसा कि मैंने बताया, मेरे द्वारा किए गए कदम के आधार पर मेरा (अपडेट: सिंगल कोर पर) की तुलना में सबसे अच्छा 18 गुना तेज था। मुझे यकीन नहीं है कि अगर अल्फाजो 4 घंटे में अपने नेटवर्क को प्रशिक्षित करने के लिए वास्तव में ऐसे हार्डवेयर का उपयोग कर सकता है, तो मैं केवल यह मान सकता हूं कि शतरंज जैसे खेल के लिए यह बहुत कम है। इसके अलावा, अल्फाज़ेरो ने उन घंटों को सीखने में बिताया, जिसमें ठोस उद्घाटन भी शामिल है (और जैसा कि पेपर बताता है, कुछ विशिष्ट उद्घाटन पर प्राथमिकताएं)। दूसरी ओर, स्टॉकफिश को उद्घाटन पर विकलांग किया गया था, और इसने प्रत्येक चाल पर 60 सेकंड के लिए प्रति सेकंड 70 मिलियन पदों का मूल्यांकन नहीं किया था।

अंतिम नोट के रूप में, मैंने जो कुछ भी कहा वह मेरी मान्यताओं पर आधारित था। बेशक, अल्फ़ाज़ेरो और खेल के परिणाम मेरे लिए सुपर दिलचस्प थे। हालाँकि, मुझे एक ऐसा खेल देखना पसंद था जहाँ स्टॉकफिश का खेल वैसा ही हो जैसा मुझे अपने कंप्यूटर पर मिलता है। यही है, अधिक समय और एक प्रारंभिक पुस्तक की अनुमति है। हर कदम पर स्टॉकफिश विश्लेषण के आउटपुट प्राप्त करना भी आसान है, और मैं चाहता हूं कि वे इसे जारी करें ताकि यह प्रदर्शित हो सके कि यह कितना अच्छा प्रदर्शन किया है।


1
समय सीमा के संबंध में, अल्फाज़ेरो पेपर में चित्रा 2 विपरीत दिखाता है: स्टॉकफ़िश कम बजट में बेहतर है, लेकिन अधिक शक्ति उपलब्ध होने पर, खराब हो जाता है। arxiv.org/pdf/1712.01815.pdf
ufo

1
@ बूढ़े-ufo कि बाहर इशारा करने के लिए धन्यवाद। जैसा कि मैंने कहा, स्टॉकफिश (और अल्फाज़ेरो) का प्रदर्शन हार्डवेयर के साथ-साथ समय सीमा पर निर्भर है। उदाहरण के लिए, अगर हमने स्टॉकफिश को अधिक हार्डवेयर (और अल्फाज़ेरो कम) दिया और उस आकृति को फिर से बनाया, तो इसकी रेखा को ऐसे रूपांतरित किया जा सकता है कि यह हमेशा अल्फाज़ेरो रेखा से ऊपर रहती है। इसलिए मुझे लगता है कि दोनों प्रणालियों के लिए हार्डवेयर की तुलना में यह एक अच्छा बिंदु है जो मुख्य प्रश्न का उत्तर भी देता है।
ReZzT

4

स्टॉकफिश के मूल लेखकों में से एक आपके द्वारा यहां बताई गई विशिष्ट शिकायतों का जवाब देता है:

इस बीच शतरंज.कॉम को मूल स्टॉकफिश लेखक, टोरड रोमस्टैड में से एक से एक लंबी टिप्पणी मिली, जिसे हम पूर्ण रूप से देंगे:

समय पर नियंत्रण और स्टॉकफ़िश पैरामीटर सेटिंग्स के बजाय अजीब विकल्प के कारण मैच परिणाम अपने आप में विशेष रूप से सार्थक नहीं हैं: खेल 1 मिनट / चाल के निश्चित समय पर खेले गए थे, जिसका अर्थ है कि स्टॉकफ़िश को अपने समय प्रबंधन हेयुरेटिक्स का कोई उपयोग नहीं है ( स्टॉकफिश को खेल में महत्वपूर्ण बिंदुओं की पहचान करने और एक कदम पर कुछ अतिरिक्त समय बिताने के लिए तय करने के लिए बहुत प्रयास किया गया है, प्रति कदम एक निश्चित समय पर, ताकत का काफी नुकसान होगा)। स्टॉकफिश का उपयोग किया गया संस्करण एक वर्ष पुराना है, जो कभी भी परीक्षण के किसी भी महत्वपूर्ण राशि प्राप्त करने की तुलना में कहीं अधिक खोज धागे के साथ खेल रहा था, और धागे की संख्या के लिए बहुत छोटे हैश टेबल थे। मेरा मानना ​​है कि अधिक सामान्य परिस्थितियों के साथ मैच में ड्रॉ का प्रतिशत बहुत अधिक रहा होगा।

दूसरी ओर, इसमें कोई संदेह नहीं है कि अगर प्रोजेक्ट में अधिक काम किया गया था, तो अल्फ़ाज़ेरो बेहतर खेल सकते थे (हालाँकि कागज में वर्णित "4 घंटे सीखने" अत्यधिक भ्रामक है जब आप बड़े पैमाने पर हार्डवेयर संसाधनों का उपयोग करते हैं। उन 4 घंटों के दौरान)। लेकिन किसी भी मामले में, स्टॉकफिश बनाम अल्फाज़ेरो सेब की तुलना बहुत हद तक संतरे से की जाती है। एक साधारण कंप्यूटर पर चलने वाला एक पारंपरिक शतरंज कार्यक्रम है, दूसरा मौलिक रूप से विभिन्न तकनीकों का उपयोग करता है और कस्टम डिज़ाइन किए गए हार्डवेयर पर चल रहा है जो खरीद के लिए उपलब्ध नहीं है (और यदि यह होता तो आम उपयोगकर्ताओं के बजट से बाहर हो जाता)।

एक अन्य दृष्टिकोण से, सेब बनाम संतरे के कोण इस बारे में सबसे रोमांचक बात है: हमारे पास अब दो बेहद अलग हैं (हार्डवेयर और सॉफ़्टवेयर पक्ष दोनों) मानव निर्मित इकाइयाँ जो दोनों सुपर-मानव शतरंज खेलने की क्षमता प्रदर्शित करती हैं। यह अभी तक एक और शतरंज कार्यक्रम की तुलना में अधिक दिलचस्प है जो मौजूदा शतरंज कार्यक्रमों के समान काम करता है, बस थोड़ा बेहतर है। इसके अलावा, नए डोमेन के लिए अल्फाज़ेरो दृष्टिकोण का अनुकूलन भविष्य के लिए रोमांचक संभावनाएं खोलता है।

शतरंज के खिलाड़ियों के लिए एक उपकरण के रूप में कंप्यूटर शतरंज कार्यक्रमों का उपयोग करने के लिए, इस सफलता का बहुत अच्छा प्रभाव नहीं पड़ता है, कम से कम अल्पावधि में, सस्ती कीमतों के लिए उपयुक्त हार्डवेयर की कमी के कारण।

शतरंज इंजन प्रोग्रामर के लिए - और कई अन्य दिलचस्प डोमेन में प्रोग्रामर के लिए - मशीन सीखने की तकनीक का उभरना जो प्रभावी होने के लिए बड़े पैमाने पर हार्डवेयर संसाधनों की आवश्यकता होती है, थोड़ा निराशाजनक है। कुछ वर्षों में, यह बहुत संभव है कि साधारण कंप्यूटरों पर चलने के लिए शतरंज की तरह अल्फ़ाज़ेरो बनाया जा सकता है, लेकिन उन्हें बनाने के लिए आवश्यक हार्डवेयर संसाधन अभी भी हॉबीस्ट या औसत आकार की कंपनियों के बजट से परे होंगे। यह संभव है कि स्वयंसेवकों द्वारा चलाए जा रहे कंप्यूटरों के एक बड़े वितरित नेटवर्क के साथ एक खुला स्रोत परियोजना काम कर सके, लेकिन सैकड़ों अद्वितीय शतरंज इंजनों के दिन, प्रत्येक अपने स्वयं के व्यक्तिगत quirks और व्यक्तित्व के साथ चले जाएंगे।

स्रोत: https://www.chess.com/news/view/alphazero-reactions-from-top-gms-stockfish-author


2

तुलनीय हार्डवेयर पर चलने की आवश्यकता होगी यदि Google का अंतिम लक्ष्य एक बेहतर शतरंज इंजन का निर्माण करना था, लेकिन यह अभ्यास वास्तव में शतरंज के बारे में नहीं था। शतरंज एआई को खरोंच से जटिल कार्यों को सीखने की क्षमता प्रदर्शित करने का एक सुविधाजनक तरीका है। अगर यह स्टॉकफिश के कुछ अस्पष्ट उचित विन्यास के खिलाफ अच्छा प्रदर्शन कर सकता है, तो यह बॉक्स की जाँच करता है।

मुझे लगता है कि Google टीम शतरंज पर अधिक प्रयास नहीं करेगी; इसके बजाय, वे अन्य समस्याओं के लिए आगे बढ़ेंगे जिन्हें एआई कभी पूरा नहीं कर पाया।


मैंने +1 किया है क्योंकि मेरे पास समान भावना है।
लघुशंका

संभावित लगता है, हालांकि मुझे संदेह है कि उन्होंने इसे प्रकाशित किया होगा, अगर अल्फ़ाज़ो केवल एक छोटे अंतर से हार गया था (जिसका अर्थ है कि यह अभी भी स्टॉकफ़िश के लिए तुलनीय ताकत होगा)।
user1583209

@ user1583209 उन्होंने स्टॉकफिश को कुचलने के लिए आवश्यक न्यूनतम सीखने की मात्रा का पता लगाने के लिए संभवतः इसे बहुत बार चलाया। फिर उन्होंने एक अंतिम दौड़ लगाई और उन परिणामों को प्रकाशित किया।
T Scherer

1

अधिक जानने के लिए Talkchess फ़ोरम पर जाएँ, वहाँ पर आपको कुछ 3000 प्रोग्रामर मिलेंगे। यह सब एक घोटाला था। अल्फा SF, 4TPUs बनाम 64 कोर की तुलना में 30 गुना बड़े हार्डवेयर पर खेला जाता है। 4TPUs लगभग 1000 कोर या उससे भी अधिक है। अल्फा ने अनुकरणीय उद्घाटन पुस्तक, अनगिनत शीर्ष जीएम जीतने वाले खेलों पर प्रशिक्षित की थी। एस एफ के पास बहुत कम हैश था। टीसी को प्रति मिनट 1 कदम पर तय किया गया था, जो फिर से एसएफ के लिए हानिकारक है, जिसमें उन्नत समय प्रबंधन है। टीपीयू में अधिक कोर के साथ एसएमपी अक्षमताओं का अभाव है, इसलिए हार्डवेयर लाभ और भी बड़ा था। आदि, आदि, मूल रूप से, यह सिर्फ Google की ओर से एक विशाल प्रचार स्टंट था। वर्तमान में, अल्फा सिंगल कोर पर 2800 के आसपास है, इसलिए एसएफ के नीचे 400 एलोस हैं, और भविष्य में बहुत आगे नहीं बढ़ेंगे, जैसा कि अब से, इसे उन्नत मूल्यांकन की आवश्यकता होगी जो इसे खोजने में सक्षम नहीं होगा। 4 घंटे के मुद्दे के बारे में, अच्छी तरह से, योग्य, यह 48 घंटे पहले था, इसलिए अब अल्फा 5000 एलो है? आओ।


5
आप मानते हैं कि अल्फ़ाज़ेरो स्टॉकफिश के समान ही काम करता है, केवल 1000 गुना तेजी से क्योंकि यह 1000 गुना मजबूत हार्डवेयर का उपयोग करता है। यह बिल्कुल भी सच नहीं है। यह बहुत अलग दृष्टिकोण का उपयोग करता है और यह दृष्टिकोण बहुत ही संसाधन गहन है। वास्तव में, मैच के दौरान अल्फाजेरो प्रति सेकंड 80 हजार पदों का मूल्यांकन कर रहा था, जबकि स्टॉकफिश प्रति सेकंड 70 मिलियन पदों पर देख रहा था। अब मुझे बताएं कि अल्फ़ाज़ेरो एक मजबूत हार्डवेयर की वजह से जीता है। बेशक 64 सीपीयू पर यह धीमा होगा और कौन जानता है कि यह कैसे खेलेगा लेकिन मुद्दा यह है कि अल्फाज़ेरो इसे बेहतर करता है, उच्च लागत पर।
आइए पेट्र हरसिमोविच

3
एसएफ हार्डवेयर की कीमत $ 10k से कम है, अल्फा $ 250k से अधिक है। निष्कर्ष स्वयं निकालें। एनपीएस अर्थहीन हैं, और हर शतरंज प्रोग्रामर को पता है। आप सभी प्रकार की चालें कर सकते हैं ताकि एनपीएस कम हो, लेकिन इसका मतलब यह नहीं है कि आप मजबूत खेलेंगे। मैं इसे एसएफ हार्डवेयर पर लागू करना और अल्फा हार्डवेयर पर एसएफ को देखना चाहता हूं। परिणाम का अनुमान है? SF के लिए +85 -0 = 15। यदि वे इतने महान हैं, तो उन्हें अपना कोड प्रकाशित करने दें।
Lyudmil Tsvetkov

3
"अल्फा ने अनगिनत शुरुआती जीएम जीतने वाले खेलों में प्रशिक्षित, शुरुआती किताबों की नकल की थी।" नकली ओपनिंग बुक, हां, लेकिन यह जीएम गेम पर प्रशिक्षित है? क्या इसके लिए आपके पास स्रोत है? मेरी समझ यह थी कि अल्फा पूरी तरह से बूटस्ट्रैप्ड था।
अकवल

0

स्टॉकफिश सीपीयू के लिए विवश है, इसलिए यह उस स्तर को कभी भी स्केल नहीं कर पाएगा जो जीपीयू सक्षम है।

जीआर मैट्रिक्स गणना जी के साथ एन पैमाने पर गणना करती है, जबकि एन 3 के साथ सीपीयू पैमाने पर , इन टेंसोर कोर को और अधिक अनुकूलित किया जाता है, इसलिए यह आपके पैमाने के रूप में बेहतर प्रदर्शन की संभावना है।


-2

पहला पैराग्राफ अधिक विस्तार, दूसरा छोटा और सरल उत्तर तीसरा पैराग्राफ मेरी राय स्थिति पर

अल्फाज़ेरो के साथ हार्डवेयर में इसके खेलने की शक्ति पर 0 प्रभाव होता है। इसमें अधिक समय लग सकता है लेकिन ऐसा नहीं है क्योंकि यह सोच रहा है। यह एक तंत्रिका नेटवर्क है, जिसका अर्थ है कि आप इसे वेक्टर (एक एकल स्तंभ तालिका) में फीड करते हैं, यह एक विशाल टेंसर (3 या अधिक आयामी तालिका) के माध्यम से सरल गणित करता है, फिर यह उत्तर को बाहर निकालता है। स्टॉकफिश को अच्छा होने के लिए समय की आवश्यकता होती है क्योंकि यह यह देखने के लिए संभव स्थिति की जांच करता है कि क्या कोई चाल फायदेमंद है, इसलिए यह समस्या को जितनी अधिक स्थिति / चाल में देखता है, उतनी देर तक इसे देख सकता है।

वास्तव में एक तुलनीय हार्डवेयर सेटअप नहीं है। क्योंकि उनकी अलग-अलग ज़रूरतें हैं, स्टॉकफ़िश को और अधिक पदों का विश्लेषण करने की ज़रूरत है जबकि अल्फाज़ेरो को बस एक कदम बनाने की ज़रूरत है। और लोग परेशान हैं क्योंकि अल्फाज़ेरो का कंप्यूटर तकनीकी रूप से बहुत अधिक शक्तिशाली है और उन्हें लगता है कि उन्हें उस संबंध में बराबर होना चाहिए। लेकिन, अल्फाज़ेरो को प्रशिक्षण के बाद उस सुपर कंप्यूटर की आवश्यकता नहीं है।

मेरी राय में, इससे कोई फर्क नहीं पड़ता कि वे दोनों को क्या देते हैं, जब तक कि स्टॉकफिश के पास अनुचित मात्रा में समय नहीं है, यह संभवतः कुछ और गेम टाई करेगा, लेकिन सामान्य तौर पर एक समान प्रभाव होगा। यही कारण है कि मुझे लगता है कि, स्टॉकफिश शुरू में टुकड़ों और उनके मूल्यों के साथ मूल्यांकन करती है, जबकि अल्फा ने (संभवतः) लाखों खेल महसूस किए कि रणनीतिक रूप से महत्वपूर्ण क्या है। यही कारण है कि अल्फा स्टॉकफिश की तुलना में बहुत अधिक है, लेकिन विशाल स्थितिगत लाभ प्राप्त करता है।


यह सिर्फ गलत है। अल्फ़ाज़ेरो पेड़ खोज करता है। ज्यादा हार्डवेयर इसे मजबूत बनाता है। और इसे स्टॉकफिश से बेहतर खेलने के लिए एक टन हार्डवेयर की आवश्यकता होती है।
BlindKungFuMaster

इस पोस्ट में कुछ भी सही नहीं है ...
SmallChess

यह प्रणाली 3 न्यूरलनेट्स और आंशिक मोनरो कार्लो ट्री सर्च पर आधारित है, इसलिए आप ट्री सर्च का उपयोग करके इसके बारे में सही हैं। खेलने के दौरान यह मूल्य और नीति के अल्फाजो में विकसित 2 तंत्रिका नेटवर्क सिद्धांतों का उपयोग करता है। गो एक ऐसा खेल है जिसे कम्प्यूटेशनल शक्ति के माध्यम से नहीं किया जा सकता है क्योंकि यह खगोलीय शतरंज की तुलना में अधिक जटिल है। इसलिए अगर मुझे लगता है कि इसे एक ब्रूट फोर्स एल्गोरिथम की तुलना में अधिक कंप्यूटिंग शक्ति की आवश्यकता है तो आप भ्रमपूर्ण हैं। या सूचना दी याद आती है। तीसरे तंत्रिका जाल का उपयोग पीठ के प्रसार परिवर्तनों का अनुमान लगाकर और सीखने की प्रक्रिया को तेज करने के लिए किया जाता है। अल्फ़ाज़ोस शक्ति नेट्स में होती है न कि mcts में।
यहेजकेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.