अल्फा ज़ीरो "अधिक मानव" कैसे है?

35

मेरे पास अल्फ़ाज़ेरो के बारे में संभवतः एक भोला सवाल है। मैंने इसे अन्य कंप्यूटरों की तुलना में "अधिक मानवीय" शैली में खेलने के रूप में वर्णित देखा है, लेकिन यह जो कुछ भी करता है, वह इसे करने के बारे में 100 ईएलओ अंक प्राप्त करता है। कास्परोव और कई अन्य लोगों ने दावा किया है कि कंप्यूटर के साथ मिलकर एक मजबूत मानव एक मजबूत कंप्यूटर को हरा देगा (शायद लगभग 100 ईएलओ ??)। तो एक स्पष्ट सवाल यह है कि अल्फा सेंटेरो की तुलना "सेंटोर" संयोजन के साथ कैसे की जाएगी?

केवल कुछ ही गेमों को देखने के बाद, जो मैंने देखा वह यह है कि अधिकांश कंप्यूटर व्यापक खुले खेल खेलते हैं जो अपनी गतिशीलता को अधिकतम करते हैं, लेकिन अल्फाजो विरोधियों की गतिशीलता को सीमित करने के लिए बहुत चिंतित लगता है। एक मानव खिलाड़ी में, मैं इसे स्टाइल के मामले के रूप में वर्णित करूंगा, न कि कम या ज्यादा मानव के रूप में।

— फिलिप रो
स्रोत

4

इसके लायक क्या है, कास्पारोव का यह दावा बहुत दिनांकित है। सहयोग में एक मानव और कंप्यूटर ("उन्नत शतरंज" या "सेंटूर शतरंज") अब अपने दम पर एक कंप्यूटर को बेहतर नहीं बना सकता है - कंप्यूटर अभी भी बहुत अच्छे हैं - स्टॉकफिश 8 ~ 3400 IIRC के आसपास कहीं रेट किया गया है, मैग्नस कार्लसन के लिए ~ 2825 की तुलना में ।

— स्टीफन टॉसेट

8

@StephenTouset इंजनों के लिए एलो रेटिंग से सावधान रहने के लिए बस एक सावधानी। जिन्हें मैंने सबसे अधिक देखा है वे इंजन बनाम इंजन की तुलना से हैं जो एक वास्तविक मानव के लिए मानकीकृत नहीं हैं। प्रासंगिक विकिपीडिया उद्धरण: "इन रेटिंग्स, [...] का फिडे एलो रेटिंग्स या मानव खिलाड़ियों के अन्य शतरंज महासंघ की रेटिंग से कोई सीधा संबंध नहीं है। कुछ ऐसे व्यक्ति बनाम मशीन गेम को छोड़कर, जिन्हें एसएसडीएफ ने कई साल पहले आयोजित किया था (जो अब तक थे। आज के स्तर से), इनमें से किसी भी रेटिंग सूची और खिलाड़ी पूल के बीच कोई अंशांकन नहीं है। "

— mbrig

1

मुझे लगता है कि इंसान मानक समय के नियंत्रण में नहीं हो सकता। लंबे पत्राचार खेल ठीक होना चाहिए।

— लघुशंका

4

ugh, अल्फ़ाज़ेरो एक Google उत्पाद है। तो कोई आश्चर्य नहीं कि आप अन्य कंपनियों के उत्पादों की तुलना में इसके बारे में अधिक प्रचार सुनेंगे। मुझे लगता है कि लेखकों और प्रकाशकों के साथ उनके बेहतर संबंध हैं। इसे वेमो के बारे में कुछ भी जैसे नमक के ढेर के साथ लें।

— कोडरवर्क्स

33

कागज में पेज 5 आपका जवाब है:

... अल्फ़ाज़ेरो अपने गहन तंत्रिका नेटवर्क का उपयोग करके मूल्यांकन की कम संख्या के लिए सबसे होनहार विविधताओं पर चुनिंदा रूप से लागत की भरपाई करता है - यकीनन शतरंज के लिए अधिक "मानव-जैसा" दृष्टिकोण ...

"चुनिंदा" प्रमुख शब्द है। इसका क्या मतलब है? हमारे उदाहरण के लिए इस स्थिति का उपयोग करें:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

यह हाल ही में 2017 के लंदन शतरंज क्लासिक में कारुआना द्वारा जीता गया खेल है। व्हाइट बिशप पर हमला किया जा रहा है, और आप जानते हैं कि आपको इसे स्थानांतरित करना होगा। लेकिन कहाँ?

संभावनाएं (एक टुकड़ा नहीं खोना):

Bh4
Be3
BD2
BC1

कारुआना क्या सोच रही थी?

मुझे लगा कि मैं किसी बिंदु पर हार जाऊंगा, लेकिन जब मैंने देखा, 25.B1 मुझे अचानक अपने अवसरों के लिए थोड़ा और अधिक आशावादी होना शुरू हो गया। मुझे एहसास हुआ कि मेरी स्थिति खराब है, लेकिन कम से कम मेरे पास एक योजना थी और इस स्थिति में कुछ आत्मविश्वास के लिए वास्तव में मेरी ज़रूरत थी। जब मैंने इस b3 को देखा, c4 की स्थिति दुगुनी है और मेरे पास कुछ संभावनाएं हैं।

यह मानवीय सोच है , और एक "मानवीय चाल" है। कारुआना ने Bh4, Be3 और Bd2 पर विचार नहीं किया था क्योंकि वे "खराब" दिखते थे। वह केवल और केवल बीसी 1 चाल पर ध्यान केंद्रित कर रहा था ।

मनुष्य बहुत ही चुनिंदा तरीके से शतरंज खेलते हैं , हम अनुचित कदमों को त्याग देते हैं क्योंकि हमारे पास सभी संभावनाओं की समान रूप से जांच करने का समय नहीं है।

हम भ 4 को त्याग देते हैं क्योंकि यह h6 प्यादा पर तनाव छोड़ता है
हम बी 3 को त्याग देते हैं क्योंकि यह तीसरी रैंक पर दो सफेद बदमाशों को रोकता है
हम Bd2 को त्याग देते हैं क्योंकि यह व्हाइट क्वीन को राजा की तरफ से ब्लॉक कर देता है

यही अल्फाजो कागज में दावा करने की कोशिश कर रहा है। वे अपने एल्गोरिथ्म का दावा करते हैं, हालांकि स्टॉकफिश की तुलना में धीमी, खोज में स्टॉकफिश की तुलना में बेहतर चालें चुनने में सक्षम है । जबकि स्टॉकफिश तेज है, यह खराब चाल पर समय बर्बाद करता है। अल्फ़ाज़ेरो धीमा है, लेकिन यह अधिक सटीक है (जैसे कारुआना क्या कर रहा था)।

उदाहरण के लिए, अल्फाज़ेरो ने बीसी 1 पर 80% संसाधन और अन्य सभी बिशप चालों पर 20% खर्च किए। स्टॉकफ़िश प्रत्येक चाल के लिए 25% (Bh4, Be3, Bd2, Bc1) दे सकती है।

— SmallChess
स्रोत

1

इसलिए, मूल रूप से, नाटक शैली आवश्यक रूप से अधिक मानवीय नहीं है, लेकिन खेलने के लिए अगले कदम को खोजने के लिए दृष्टिकोण है। कम से कम कागज के अनुसार। इसके अलावा, मैं इसे संपादित नहीं कर सकता, लेकिन आपकी कारुआना बोली का एक बहुत बड़ा टाइपो है: "जब मैंने उसका b3 देखा, c4" तो "जब मैंने इस b3, c4 को देखा"

— आर्थर

@ आर्थर कागज (और केवल कागज) के अनुसार, नाटक शैली आवश्यक रूप से अधिक मानवीय नहीं है। मैं नहीं कह रहा हूँ, लेकिन कागज में कुछ भी नहीं कहता है कि।

— लघुशंका

मोंटे कार्लो एल्गोरिदम में एक्स शोषण का पता लगाने के लिए एक पैरामीटर है, इसलिए यह चलता है कि अल्फा-बीटा कभी भी विचार नहीं करेगा (समय के कारण), अल्फा शून्य करता है।

— फर्नांडो

@ फ़र्नेंडो क्या आप बता सकते हैं कि आप क्या प्रतिक्रिया देते हैं? मैं बिंदु को देखने के लिए संघर्ष करता हूं। इसके अलावा मैं 'समय के कारण कभी विचार नहीं करता' से भ्रमित हूं। अल्फा-बीटा खोज शाखाओं की अवहेलना करती है जो स्पष्ट रूप से कुछ अन्य पहले से ही खोजी गई शाखाओं की तुलना में बदतर हैं। मैं यह नहीं देखता कि इसका समय के साथ क्या करना है।

— आइए पेट्र हरसिमोविच

मूल रूप से, यदि एक रेखा +0.32 है और दूसरी +0.13 है, तो अल्फाज़ेरो पूर्व पर समय बिताएगा।

— जॉसी काल्डेरन

16

सतही मूल्यांकन कार्य करने की कीमत पर, अधिकांश मजबूत इंजन बहुत गहराई से देखने पर जोर देते हैं। अल्फाज़ेरो पेपर में, वे कहते हैं कि स्टॉकफिश प्रति सेकंड 70 मिलियन पदों को देखती है।

मानव पोते वास्तव में इंजन की तुलना में बहुत कम पदों पर देखते हैं, लेकिन उनके पास एक बेहतर भावना है जो किसी दिए गए पद में बेहतर है।

अल्फाज़ेरो ने प्रति सेकंड केवल 80,000 पदों को देखा, इसलिए यह अपने मूल्यांकन कार्य में अधिक समय बिताता है।

यही वह अर्थ है जिसमें उनका अर्थ था "अधिक मानव जैसा", इससे अधिक कुछ नहीं।

— RemcoGerlich
स्रोत

11

अल्फ़ाज़ेरो पहले से ही एक नियमित "सेंटूर" की तरह खेलता है -> इंजन सहायता के साथ एक साथ जीएम।

एक एफएम के रूप में मुझे अल्फ़ाज़ेरो बनाम एक नियमित इंजन खेलने का अधिक आनंद मिलेगा।

एक तुलना यह होगी कि यह कारपोव की तरह पूर्ण रणनीति के साथ खेलता है। (गेम 9 अल्फाज़ेरो 15moves के लिए एक टुकड़ा नीचे खेलता है जो बहुत ही ताल जैसा है)।

यह केवल शैली नहीं है, अल्फ़ाज़ेरो स्टॉकफिश की तुलना में बेहतर स्थिति को समझने का आभास देता है।

अल्फ़ाज़ेरो भी होराइज़न इफ़ेक्ट से ग्रस्त नहीं है जो कि अब तक सभी शतरंज इंजनों को भुगतना पड़ा था। समय और फिर से यह स्टॉकफिश की तुलना में अधिक चाल की स्थिति का सही मूल्यांकन करने में सक्षम है।

यहाँ एक उदाहरण है:

अल्फाज़ेरो - स्टॉकफ़िश, अल्फ़ाज़ो बनाम स्टॉकफ़िश: अल्फाज़ेरो - स्टॉकफ़िश, 2017-12-05, 1-0

1. d4 E6 2. इ 4 d5 3. Nc3 Nf6 4. E5 Nfd7 5. F4 सी 5 6. Nf3 cxd4 7. NB5 Bb4 + 8. BD2 Bc5 9. बी 4 Be7 10 Nbxd4 NC6 11. सी 3 a5 B5 12. Nxd4 13। cxd4 Nb6 14. ए 4 Nc4 15. bD3 Nxd2 16. Kxd2 Bd7 17. Ke3 बी -6 18. g4 h5 19. Qg1 hxg4 20. Qxg4 Bf8 21. h4 Qe7 22. Rhc1 G6 23 RC2 Kd8 24. Rac1 Qe8 25. RC7 Rc8 26. Rxc8 + Bxc8 27. RC6 BB7 28. RC2 KD7 29. NG5 Be7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. F5 Rg8 33. Qh6 Qf7 34. F6 Kd8 35. Kd2 KD7 36. RC1 Kd8 37। QE3 Qf8 38. QC3 Qb4 39. Qxb4 axb4 40. Rg1 बी 3 41. Kc3 Bc8 42 Kxb3 Bd7 43 Kb4 Be8 44 RA1 Kc7 45 a5 Bd7 46. axb6 + Kxb6 47. RA6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

| <स्टार्ट << वापस Flip Next >> End> |

अल्फाज़ेरो राजा को 16 केंद्रों पर खेलता है। Kxd2! एक मध्य खेल में सही ढंग से यह देखते हुए कि ब्लैक इसका लाभ नहीं ले पाएगा।

यह एक टुकड़ा बलिदान 30 का सही ढंग से मूल्यांकन करने में सक्षम है। Bxg6! जबकि नियमित इंजन यह देखने में असमर्थ हैं कि वे कई चालों के लिए खो गए हैं।

f5 भी काफी अच्छा है।

अन्य उदाहरण हैं जैसे गेम 3 में एक्सचेंज सैक्रिफाइस।

— सिंट
स्रोत

8

बैंड-बाजे पर कूदना उतना ही आसान है, जितना अल्फा-ज़ीरो का नाटक पिछले कंप्यूटर शतरंज कार्यक्रमों की तुलना में 'अधिक' मानवीय है क्योंकि यह विपरीत वैगन पर कूदना है और कहना है कि अल्फा-ज़ीरो का नाटक पूरी तरह से 'एलियन' है। यह स्पष्ट नहीं है कि अल्फा-शून्य का नाटक 'अधिक मानवीय' है, विशेष रूप से मानवविज्ञान के प्रति हमारी मानवीय प्रवृत्ति।

(मानव) मन के संघर्ष के रूप में शतरंज

लेकिन शतरंज में क्या यह प्रवृत्ति सच है? मैग्नस कार्लसन ने एक बार कहा था कि सामान्य रूप से 'पारंपरिक' कंप्यूटरों में मानवीय रचनात्मकता की कमी कैसे होती है:

"शतरंज मानव दिमागों के बीच संघर्ष के बारे में है। यही कारण है कि यह रोमांचक बनाता है। कंप्यूटर शतरंज यांत्रिक, शुष्क और नरम है। चालें बहुत मजबूत हैं, ज़ाहिर है, लेकिन कोई शैली नहीं है। यदि आप शतरंज कंप्यूटर के खिलाफ खेलने की कोशिश करते हैं। न केवल आप बहुत उच्च निश्चितता के साथ खो देंगे, बल्कि आप इस प्रक्रिया में ऊब जाएंगे।

मैग्नस कार्लसन ने पारंपरिक शतरंज कंप्यूटरों में मानव शैलियों के खेलने के प्रमाण नहीं देखे। यदि अल्फा-जीरो की हालिया उपलब्धि ने इस परिप्रेक्ष्य को पूर्ववत कर दिया है और हमें अपने आप को कुछ और याद दिलाने की ओर अग्रसर किया है, तो इसकी जांच करें।

अगर 'मानव-जैसी' से आपका मतलब है 'व्यवहार का प्रदर्शन' तो हमारे मानवशास्त्र के प्रति आकर्षण की संभावना को प्रदर्शित करता है 'क्या अल्फ़ा-ज़ीरो की शैली अधिक मानवीय लगती है? हम वास्तव में इस व्यक्तिपरक मायोपिक मनुष्यों का परीक्षण कैसे करते हैं जो गैर-मानवीय चीजों पर प्रोजेक्ट करना पसंद करते हैं? चलो पूछते हैं - क्या एल्गोरिथ्म 'चुनिंदा बेहतर चुनता है' या अपनी खेल शैली में 'अधिक मानवीय रचनात्मक विकल्प' प्रदर्शित करता है?

एल्गोरिथ्म के रचनाकारों ने संकेत दिया कि स्टॉकफिश के विपरीत जो अल्फा-बीटा खोज एल्गोरिथ्म का उपयोग करता है, अल्फा-ज़ीरो एक मोंटे-कार्लो ट्री खोज (MCTS) एल्गोरिदम को नियुक्त करता है जो इनपुट के रूप में स्वीकार करता है एक भारित पैरामीटर out पिछले परिणामों से निर्मित ~ पृष्ठ ~ मेज़रिंग शतरंज और एक सामान्य सुदृढीकरण लर्निंग एल्गोरिदम के साथ स्व-प्ले द्वारा शोगी ।

इसलिए एल्गोरिथ्म पसंद का प्रदर्शन नहीं करता है। यह वास्तव में एक यादृच्छिक लेकिन संभाव्य मोंटी-कार्लो खोज में संलग्न है, जहां इसके लिए उपलब्ध संभावित खोज पथ पिछले परिणामों द्वारा तेजी से पूर्वाग्रहित हैं। क्या अल्फा-शून्य ने इस तरह से खेलने की अपनी शैली को अनुकूलित करने का विकल्प चुना या क्या वह अपने प्रोग्रामरों की पसंद था?

क्या अल्फ़ा-ज़ीरो के पास हमेशा विचार के लिए उपलब्ध सभी संभावित चालें हैं या कुछ चालों को एल्गोरिथम रूप से पूर्वाग्रहित किया गया है जो कि अनुभव की नकल करता है जिसकी व्याख्या मानव मानव द्वारा की जा सकती है?

प्रारंभ में इसके पास सभी चालें उपलब्ध थीं इसलिए इसकी 'शैली' पूरी तरह से यादृच्छिक थी। हालाँकि, यह खोज लगातार बढ़ती जा रही है और पिछली सफलता या असफलता से विवश है, लेकिन इसकी शैली वास्तव में उस मोड की ओर बदल रही है जिसके प्रोग्रामर ने इसे हिला दिया है। क्या यह 'अधिक मानव' है? मैग्नस कार्लसन से इसकी तुलना करें जो कभी-कभी कम इष्टतम चाल का चयन करेंगे क्योंकि वे अधिक रचनात्मक हैं :

मैग्नस कार्लसन: "मैं कुछ विशिष्ट बनाने की सराहना करता हूं"

(विदेशी) मन के संघर्ष के रूप में शतरंज

मनुष्य अपने खेलने की शैली को चलाने वाले मापदंड को चुन सकता है (उदाहरण के लिए मैंने अक्सर अपनी शैली में आवेग और त्रुटि को चुना है)। कई लोग दोनों शतरंज में अल्फा-शून्य खेलते हैं और निश्चित रूप से विदेशी के रूप में जाते हैं । एमआईटी के कंप्यूटर साइंस एंड आर्टिफिशियल इंटेलिजेंस लेबोरेटरी (सीएसआईएल) के एक स्नातक छात्र निक हाइन्स ने देखा:

“हम यहां जो देख रहे हैं वह मानव पूर्वाग्रह और पूर्वाग्रहों से मुक्त एक मॉडल है: यह जो कुछ भी निर्धारित करता है, वह इष्टतम है, जो वास्तव में अधिक सूक्ष्म हो सकता है कि हमारी खुद की अवधारणाएं। यह एक एलियन सभ्यता की तरह है जो अपने स्वयं के गणित का आविष्कार करता है जो इसे समय यात्रा जैसी चीजों को करने की अनुमति देता है ... "

इसी तरह जीएम पीटर हेन नीलसन ने शतरंज डॉट कॉम को बताया :

"कागज पढ़ने के बाद लेकिन विशेष रूप से उन खेलों को देखकर जिन्हें मैंने सोचा था, ठीक है, मैं हमेशा सोचता था कि यह कैसे होगा यदि कोई बेहतर प्रजाति धरती पर उतरी और हमें दिखाया कि वे शतरंज कैसे खेलते हैं। मुझे लगता है कि अब मुझे पता है।"

ऐसा लगता है कि अल्फ़ा-ज़ीरो के 'एलियन प्ले' के रूप में खेलने की उभरती शैली पर सबसे ज्यादा प्रतिक्रिया होती है, न कि 'अधिक मानवीय' के रूप में।

इसलिए ऊपर दिए गए उत्तरों से असहमत होने का कारण है कि 'हां' कहें।

— user34445
स्रोत

3

आपका जवाब काफी भ्रामक और स्थानों में गलत है। MCTS का उपयोग महत्वपूर्ण अंतर नहीं है, यही कारण है कि इसने स्टॉकफिश को नहीं हराया। वे अल्फा-बीटा खोज का भी उपयोग कर सकते हैं, उन्होंने महसूस किया कि एमसीटीएस ने उनके लिए बेहतर काम किया है। अल्फ़ाज़ेरो अल्गोरिदम के मुख्य तत्व एक बहुत गहरे विक्षेपात्मक तंत्रिका नेटवर्क हैं, सुदृढीकरण सीखने (यानी स्व-प्ले द्वारा नेटवर्क को ट्यून किया जाता है), और एक पेड़ खोज (जो एमसीटीएस होता है लेकिन यह आवश्यक नहीं है)। इसमें कुछ भी दस्तकारी नहीं है, इस प्रकार यह कहते हुए कि "इसकी शैली वास्तव में उस मोड की ओर बदल रही है जिसे इसके प्रोग्रामर ने इसे हिला दिया है" गलत है।

— IA पेट्र हरसीमोविच

"शतरंज मानव दिमागों के बीच संघर्ष के बारे में है। यही कारण है कि यह रोमांचक है। कंप्यूटर शतरंज यांत्रिक, शुष्क और नरम है। चालें बहुत मजबूत हैं, बेशक, लेकिन कोई शैली नहीं है"। क्या किसी जीएम ने एक गुमनाम प्रतिद्वंद्वी की भूमिका निभाने वाले कई जीएम के साथ ट्यूरिंग-टेस्ट शैली का प्रयोग किया है जो कि एक मानव या कंप्यूटर हो सकता है?

यदि आपको लगता है कि मेरी बात यह थी कि MCTS महत्वपूर्ण अंतर है (अल्फा-शून्य और स्टॉकफिश के बीच) - तो आप मेरी बात याद कर रहे हैं। मेरा कहना यह था कि मनुष्य, एल्गोरिदम ने अल्फा-शून्य की खेल शैली का फैसला नहीं किया, अल्फा-शून्य के निर्णय का फैसला किया। मेरा कहना था कि ये बहुत ही मानवीय विकल्प एक नाटक शैली प्रदान करते हैं जो जीएम और शौकीनों को समान रूप से हमला करता है क्योंकि वे निश्चित रूप से मानव नहीं हैं।

— user34445

Dr Eval check out - cs.stackexchange.com/questions/68249/…

— user34445

1

@ user34445 वास्तव में, मुझे लगता है कि पैराग्राफ का कोई मतलब नहीं है, मैं इसे तर्कसंगत बनाने की कोशिश कर रहा था। अल्फ़ाज़ेरो की नाटक शैली को मनुष्य ने तय नहीं किया, उन्होंने इसकी सीखने की शैली का फैसला किया। वे निश्चित रूप से इस पर अपने विचार नहीं रखते थे कि शतरंज कैसे खेला जाता है।

— IA पेट्र हरसिमोविक

5

यह जीवित रहने के लिए एक अविश्वसनीय रूप से दिलचस्प समय है।

1970 के दशक से शुरू होने वाले शतरंज कंप्यूटर अल्फ़ा-बीटा प्रूनिंग का उपयोग करके न्यूनतम-ट्री-आधारित खोज एल्गोरिदम रहे हैं। ये प्रोग्राम कंप्यूटर की गति और समानता में प्रगति के कारण और मजबूत हो गए और क्योंकि शाखाओं को चुभाने और पत्ती के नोड्स का चयन करने के लिए उपयोग किए जाने वाले ह्यूरिस्टिक एवल फ़ंक्शन में सुधार हुआ। लेकिन लोगों ने लंबे समय तक देखा है कि भौतिक और उबाऊ कंप्यूटर कैसे खेलते हैं, और कई लोगों (खुद को शामिल किया गया) ने सोचा कि "मानव" अंतर्ज्ञान को सॉफ्टवेयर में एन्कोड करना असंभव था।

लेकिन क्या आपने इन खेलों को देखा है?

अल्फ़ाज़ेरो अविश्वसनीय रूप से सुंदर नाटक का प्रदर्शन कर रहा है, जिसमें दीर्घकालिक स्थितिगत लाभ के लिए सामग्री बलिदान के कई उदाहरण शामिल हैं। यह मानव स्वामी से कुछ सबसे खूबसूरत खेलों की याद दिलाता है, लेकिन साथ ही साथ बेजोड़ तकनीकी सटीकता के साथ। यह पहला उदाहरण है जो मैंने अपने जीवन में देखा है कि यह कंप्यूटर से उत्पन्न है और इसमें गहरी सुंदरता भी है ।

सेंटूर दावा:

मैंने सुना है गैरी ने कई बार यह कहा है, लेकिन यह सच नहीं है। या कम से कम, यह दृश्य पर अल्फ़ाज़ेरो के साथ किसी भी लंबे समय तक सच नहीं होगा।

यह कल्पना करें: एक टुकड़ा थैली है जिसमें 10,000 प्रासंगिक निरंतरताएं हैं, जहां उनमें से 5,000 विशुद्ध रूप से सामरिक हैं (फिर भी ज्यादातर एक दूसरे से असंबंधित हैं) और दूसरे 5,000 जो कि ज्यादातर स्थितीय हैं (फिर भी ज्यादातर असंबंधित)। एक गलती किए बिना इन सभी विविधताओं के माध्यम से एक मानव दरार कैसे हो सकता है? यदि अल्फ़ाज़ो अब इन अत्यधिक रचनात्मक चालों को देख सकता है, तो मानव संभवतः क्या योगदान दे सकता है?

आखिरी सरहद:

एक जगह बची है, जहां जानवर-गणना अभी भी गहरे तंत्रिका जाल को हराएगी: एंडगर्म। अंतर्ज्ञान की कोई राशि नहीं है जो एक टेबलबेस को हरा देगा। लेकिन अंत में एक टेबलबेस की आवश्यकता होती है (क्योंकि एक खोज ट्री सही चाल की गणना करने के लिए पर्याप्त गहराई तक नहीं जा सकता है) बहुत दुर्लभ हैं। और आप बस अल्फ़ाज़ेरो में एक टेबलबेस को प्लग कर सकते हैं, लेकिन यह "स्व-सिखाया" इंजन की शुद्धता को नष्ट कर देगा, है ना?

— Fixee
स्रोत

3

चूँकि मनुष्यों में पारंपरिक कंप्यूटर शतरंज कार्यक्रमों (फ्रिट्ज़, स्टॉकफिश एट अल) जैसी गहरी खोज करने की क्षमता का अभाव होता है, वे 'रणनीतिक सिद्धांत' या अंगूठे के नियम (केंद्र नियंत्रण, विकास, राजा सुरक्षा) और अवधारणाएँ या ट्रिक्स बनाते हैं जो विशाल विविधता में लागू होते हैं अलग-अलग तरीकों से स्थितियां, जैसे कि बलिदान, किश्ती जुड़ी हुई, बिशप जोड़ी, विशिष्ट अंत जैसे कि राजा को किश्ती और मोहरे से कैसे जोड़ा जाए।

मुझे लगता है कि अल्फा शून्य ने स्वतंत्र रूप से कई ऐसी अवधारणाओं (धारणाओं और अवधारणाओं) को पुनर्निमित किया है और नए लोगों को भी सीखा है - क्योंकि इसके ज्ञान को मानव मूल्यांकन कार्यों और मजबूत मिनमैक्स खोज पर निर्मित होने की आवश्यकता नहीं थी जो हमेशा मानता है कि एक प्रतिद्वंद्वी है प्रतिभा।

बेशक, इस तरह के सिद्धांत कुछ स्थितियों में स्वयं संघर्ष करते हैं, यही कारण है कि विभिन्न उद्घाटन नाटकों और नुकसान का सावधानीपूर्वक अध्ययन किया जाता है - जैसे कि बहुत जल्द रानी विकसित नहीं होती हैं।

दूसरी ओर, मनुष्य यह भी नोटिस करते हैं कि एक बार जब आप एक टुकड़ा (बदले में) खो देते हैं तो आप अपनी ताकतों को कमजोर कर देते हैं, इसलिए वे क्षतिपूर्ति के बिना एक टुकड़ा नहीं खोने के लिए बेहद सावधान हैं।

मुझे लगता है कि अल्फ़ाज़ेरो के नाटक ने कंप्यूटर की शतरंज (और मानव शतरंज) को किताबों और टुकड़ों के मूल्यों को खोलने पर छोटी सामग्री और अधिक मात्रा में खोने के डर से मुक्त कर दिया है।

अल्फ़ाज़ो के खेल 'रणनीतिक सिद्धांतों' जैसी चीज़ों को दर्शाते हैं जैसे केंद्र नियंत्रण, विकास, अंतरिक्ष, पहल कहीं अधिक महत्वपूर्ण हैं यदि आपका प्रतिद्वंद्वी सुस्त है। दूसरे शब्दों में, 'बलिदान' वास्तव में बलिदान नहीं है, लेकिन पहल, स्थिति, निर्देशित चाल में लाभ के लिए एक टुकड़े का व्यापार करता है।

अल्फ़ागो (शून्य नहीं) मानव मूल्यांकन पर निर्भर करता है, लेकिन अल्फ़ाज़ो मूल्यांकन की पूरी श्रृंखला को 'खोज या सिमुलेशन' के रूप में स्थापित करता है जो प्रक्रिया के अंत के लिए एक ही छोर है और खेलने के बिल्कुल नए तरीके के साथ आता है।

यदि आप इसके बारे में सोचते हैं, तो अतीत के महान स्वामी जैसे कि मोर्फी, फिशर, कास्पारोव की सराहना की जाती है, आमतौर पर इस तरह के एनकाउंटर के लिए सहज ज्ञान युक्त खेल खेलते हैं, जहां वे विशेष परिस्थितियों का लाभ उठाने के लिए लिखित-ऑन-स्टोन मूल्यांकन द्वारा बाध्य नहीं होते हैं। उभरते हैं। मुझे लगता है कि अल्फा शून्य के खेल में इस तरह के 'वाह' कारक हैं।

तंत्रिका नेटवर्क क्यों। जबकि कंप्यूटर प्रोग्राम जो प्रतीकात्मक प्रतिनिधित्व और असतत खोज का उपयोग करते हैं, केवल सोचने के 'एक' तरीके का उपयोग कर सकते हैं, तंत्रिका नेटवर्क वैकल्पिक रूप से वैकल्पिक, परस्पर विरोधी मूल्यांकन के साथ स्थितियों को संसाधित कर सकते हैं और बाद की परतों में अधिक मूल्यवान दृश्य के लिए फ्लिप कर सकते हैं।

— रवि अन्नास्वामी
स्रोत

2

इस अर्थ में अधिक मानवीय कि वह जो चालें चलता है वह मानवीय दृष्टिकोण के साथ कम या ज्यादा मेल खाता है: दीर्घकालिक लाभ, स्थितिगत बलिदान, टुकड़ा गतिविधि के लिए खेलते हैं। मानव शतरंज ज्ञान और सदियों से परिष्कृत रणनीतिक सिद्धांतों के साथ एक स्पष्ट अभिसरण है (उदाहरण के लिए "यह" कई समान उद्घाटनों की खोज की)। यह उल्लेखनीय तथ्य है कि अल्फ़ाज़ो को मानव निर्मित शतरंज ज्ञान के साथ नहीं लिया गया है।

लेकिन समानताएँ यहाँ समाप्त होती हैं। अल्फ़ाज़ेरो इसे अगले स्तर तक ले जाता है और इसे बेहतर करता है, और इस तरह से मनुष्यों ने कभी कल्पना नहीं की है। अल्फ़ाज़ेरो के पास कागज़ को उद्धृत करने के लिए "अलौकिक" क्षमताएं हैं: "अल्फ़ाज़ेरो ने एक अतिमानवीय स्तर हासिल किया [...]" ( https://arxiv.org/pdf/1712.01815.pdf )। इसके अतिरिक्त इसमें मनुष्यों की कमजोरियाँ निहित नहीं हैं: एकाग्रता के मुद्दे, भय, थकान, भावनाओं, अंतर्ज्ञान, आदि जो मनुष्यों को सीमित करते हैं। और इसका सिलिकॉन मस्तिष्क आवश्यक होने पर मानव क्षमताओं से परे सामरिक संयोजनों के लिए अनुमति देता है।

— AdamL
स्रोत

2

फिर विरोधाभास है। मानव अनुभव से स्टॉकफिश को लाभ; अल्फ़ाज़ो नहीं करता। लेकिन अल्फा शून्य अधिक मानवीय लगता है। मतलब, शायद, जो हमने नहीं किया था, स्टैकेफिश पीढ़ी के साथ, हमारे विचारों को दूर करने का एक बहुत अच्छा काम

— फिलिप रो

1

मैं उन सभी को धन्यवाद कहना चाहता हूं जिन्होंने इस सवाल का जवाब दिया है, अक्सर सूक्ष्मता और अंतर्दृष्टि के साथ। प्रतिक्रियाओं में मुख्य अंतर, यह मुझे लगता है, मानव शब्द की व्याख्या में है।

अल्फ़ाज़ेरो ओवरसिट और मिसकल्चुलेशन के अर्थ में मानव शतरंज नहीं खेलता है, लेकिन इसकी "विचार" प्रक्रिया एक व्यापक रूप में, मुझे लगता है कि सबसे मजबूत खिलाड़ियों को कैसे लगता है के अनुरूप लगती है। आप बहुत जल्दी तैयार हो जाते हैं, "उम्मीदवार चाल" की एक सूची जिसे आप खेलना चाहते हैं, और सबसे मजबूत खिलाड़ियों के लिए यह सूची आश्चर्यजनक रूप से सटीक है, यहां तक कि एक मिनट में एक समझदार समझदार खेल की तरह कुछ भी खेल रहा है। बाकी समय पूछने पर खर्च किया जाता है, उस सूची में से कौन सी चाल वास्तव में काम करती है? पेट्रोसियन ने कहा कि वह उस समय सबसे ज्यादा फॉर्म में थे जब उन्होंने जो कदम खेला था वह वह था जिसके बारे में उन्होंने पहली बार सोचा था। हम सभी जानते हैं कि यह कितना संतोषजनक है जब हम जिस चाल को खेलना चाहते थे वह पूरी तरह से खेलने योग्य है। मैं अल्फाबेरो एल्गोरिथ्म से बहुत अधिक आसानी से संबंधित कर सकता हूं, जितना कि मैं अल्फ़ाबेटा खोज से कर सकता हूं,

सबसे दिलचस्प बात यह है कि होनहार उम्मीदवारों को पहचानने के लिए मशीन को कैसे सक्षम किया गया था। यही वह जगह है जहां वास्तविक क्रांति के लिए संभावित झूठ है। मुझे आश्चर्य है कि क्या यह केवल शतरंज और जाने जैसे डोमेन के लिए संभव है, जहां उद्देश्यों को स्पष्ट रूप से परिभाषित किया जा सकता है। लेकिन मुझे यह लगता है कि अल्फ़ाज़ेरो उद्देश्यपूर्ण खेल प्रदर्शित करता है, लेकिन स्टॉकफ़िश को पता नहीं है कि क्या चल रहा है।

— फिलिप रो
स्रोत

0

जिस तरह से मैं तंत्रिका नेटवर्क को समझता हूं, A0 का वास्तविक लाभ बोर्ड की स्थिति का बेहतर मूल्यांकन है। यह मूल्यांकन दोनों अल्पकालिक सामरिक ज्ञान को शामिल करता है (जो एक मायने में जांच की गई पदों की संख्या के गुणक के रूप में कार्य करता है) और रणनीतिक मूल्य का एक बेहतर मूल्यांकन।

— स्टाइनर वतन
स्रोत

1

शतरंज एसई में आपका स्वागत है! क्या आप उन कारणों के लिए एक संदर्भ प्रदान कर सकते हैं जिनके बारे में आपको लगता है कि तंत्रिका नेटवर्क इस तरह से काम करते हैं?

— पाब्लो एस। ओकाल

0

एक बात जो मुझे पूरी तरह से याद आती है, वह यह है कि A0 शतरंज, शोगी और गो खेल सकता है, सभी बहुत अच्छी तरह से और सभी स्व-प्रशिक्षण से। यह बहुत अधिक मानव है। इसके अलावा, इसमें शीर्ष खिलाड़ियों के लिए नए विचारों का पता चला (जैसा कि मैं इसे समझता हूं)। अन्य इंजन बहुत ही कार्य-विशिष्ट हैं, A0 अन्यथा लगता है। मैं इसे शतरंज 960 खेलते देखना चाहता हूं।

— fidge
स्रोत

1

मैं यह नहीं देखता कि यह सवाल का जवाब कैसे देता है।

— लघुशंका

-2

मुझे नहीं लगता कि अल्फा के बारे में कुछ भी 'मानव' है। यह सिर्फ ज्यादा मजबूत हार्डवेयर का इस्तेमाल करता है और उच्च गुणवत्ता वाला शतरंज खेलता है। अच्छी ओपनिंग मूव्स से यह पता चलता है (उदाहरण के लिए, बीजी 2 के साथ मियांचेतो राजा की ओर) पूरी तरह से इसकी सिम्युलेटेड ओपनिंग बुक के कारण हैं। अवधारणाओं ने मुझे प्रभावित किया है और मैंने 'द सीक्रेट ऑफ चेस' में तैयार किया है: http://davidsmerdon.com/?p=1970 , जो अल्फा पहली बार शीर्ष इंजनों के बीच उपयोग करता है, वे लंबी श्रृंखलाएं हैं, उदाहरण के लिए d4 -5-f6 श्रृंखला जिसने Bg6 बलिदान गेम और केंद्रीय पिछड़े निर्माताओं में एक पूरे टुकड़े को रौंद दिया, जैसा कि दोनों इंजनों के बीच फ्रांसीसी रक्षा खेलों में देखा गया है। दोनों अवधारणाओं में बड़ी गहराई तक खोज शामिल है, और शायद यहाँ अल्फा को इसके जबरदस्त हार्डवेयर द्वारा मदद की गई थी। अन्यथा, मैं इसके नाटक के बारे में कुछ भी नहीं देखता हूं। खेल के कई थे, माना,

— ल्यूडमिल सवेत्कोव
स्रोत

5

आप के ये दो कथन गलत हैं: 1) "यह सिर्फ ज्यादा मजबूत हार्डवेयर का उपयोग करता है" - हां, इसने स्टॉकफिश की तुलना में बहुत मजबूत हार्डवेयर का इस्तेमाल किया लेकिन यह वह नहीं है जो फर्क करता है। यह बहुत अलग सॉफ्टवेयर है जिसमें मजबूत हार्डवेयर की आवश्यकता होती है। 2) "यह जो अच्छी शुरुआत करता है वह पूरी तरह से इसकी नकली किताब के कारण है।" - यह किसी भी ओपनिंग बुक का उपयोग नहीं करता है।

— आईए पेट्र हरसिमोविक

यह ठीक यही है जो अंतर बनाता है: घातीय रूप से बड़ा अल्फा हार्डवेयर। हर शतरंज परीक्षक को पता है कि गति दोगुनी होने से सॉफ्टवेयर के आधार पर शतरंज की ताकत लगभग 70 इलो या उससे अधिक बढ़ जाती है। ३२ कोर और ४ टीपीयू, १०००-२००० कोर के बीच का अंतर ६ डबलिंग या तो है। यह 420 elos के लिए करना होगा। तो, वास्तव में, जबकि यह उस हार्डवेयर पर 100 elos मजबूत प्रदर्शन किया, समान स्थितियों पर अल्फा लगभग 300 elos कमजोर है।

— Lyudmil Tsvetkov

यह एक प्रारंभिक पुस्तक का उपयोग करता है, निश्चित रूप से, कोई फर्क नहीं पड़ता कि वे क्या दावा करते हैं। अल्फा को शीर्ष जीएम जीतने वाले खेलों पर प्रशिक्षित किया गया है। यह बहुत स्पष्ट रूप से स्पष्ट हो जाता है, अगर कोई अल्फा के उद्घाटन के चयन को देखता है: ठीक है कि उद्घाटन आधुनिक सिद्धांत अनुशंसा करता है और ठीक उन, जहां जीतने की संभावनाएं सबसे अच्छी हैं। तुम Bg2 के साथ fianchetto बस की तरह नहीं है।

— Lyudmil Tsvetkov

3

@ ल्यूडमिल, गूगल ने अल्फा जीरो में कुछ आश्चर्यजनक हासिल किया है। यह केवल खेल के नियमों को जानते हुए खुद के खिलाफ खेलकर इन चालों को सिखाता था! अल्फा ज़ीरो टीम को धोखा देने का आरोप लगाते हुए आप उनकी उपलब्धि या उनके मिशन को बिल्कुल भी नहीं समझ पाए हैं - वे एआई के मोर्चे को आगे बढ़ा रहे हैं और एक छोटे से इशारे के साथ-साथ दोपहर के काम में सभी मौजूदा शतरंज इंजनों और मानव प्रतिभा को हरा रहे हैं!

— पाल

1

@LyudmilTsvetkov आप पूरी तरह से गलत हैं। अल्फा जीरो (और यह इस बात का) किसी भी मानव खेल wtihout प्रशिक्षित किया जाता है । यह नियमों के बारे में बताया गया है और फिर अपने खेल के हर पहलू को बिना किसी नए बाहरी डेटा के बिना खेलने के चार घंटों में ही खोज लिया है ।

— मावरिक