जाने पर एक नया AI जीतता है। क्या एक समान AI शतरंज में जीत सकता है? क्या यह शुद्ध स्व-प्रशिक्षण प्राप्त कर सकता है?


20

इस साइट पर पूछे जाने वाले अधिक लोकप्रिय प्रश्नों में से एक विशुद्ध रूप से स्व-प्रशिक्षित शतरंज एआई की संभावना का संबंध है

आज, शतरंज बेस फिड कैंडिडेट्स टूर्नामेंट के अपने कवरेज से विचलित हो गया है कि रिपोर्ट करने के लिए कि एक नया एआई पहली बार है, जो कि विभिन्न खेलों के अग्रणी मास्टर की पिटाई करता है, जिसने कई वर्षों तक शतरंज की शैली एआई का विरोध किया था। रिपोर्ट के प्रारंभिक पढ़ने से पता चलता है कि नई गो एआई शतरंज एआई के विपरीत है, लेकिन यह लगभग एक सामान्य गेम-प्लेइंग (जीजीपी) एआई है। ChessBase के लेख में GGP शब्द का उपयोग नहीं किया गया है, लेकिन ऐसा लगता है कि गो AI साधारण वीडियो गेम में जीत सकता है।

क्या ऐसा कोई कारण है कि एआई जीतने वाला एआई मामूली समायोजन के साथ शतरंज में भी जीत नहीं सकता है? यदि ऐसा है, तो क्या इस तरह के एआई ने शुद्ध स्व-प्रशिक्षण प्राप्त करने का वादा किया है, जो पहले पूछे गए प्रश्न के कई उत्कृष्ट उत्तरों पर चर्चा कर चुका है, जो उस समय संभव नहीं था? क्यों या क्यों नहीं?

मुझे संदेह है कि मेरे प्रश्न का वास्तव में पूर्ण, पूरी तरह से सूचित उत्तर अभी तक उपलब्ध नहीं है, इसलिए संबंधित विशेषज्ञता के आधार पर भी आंशिक उत्तर की सराहना की जाएगी।

अतिरिक्त संदर्भ के लिए, यह संबंधित प्रश्न और उत्तर भी देखें

अपडेट करें

जब उपरोक्त प्रश्न पहली बार पांच दिन पहले पोस्ट किया गया था और जब नीचे दिए गए कुछ ठीक जवाब दिए गए थे, तो गो एआई की जीत के बारे में पहली खबर अभी सामने आई थी। तब से, अतिरिक्त जानकारी और टिप्पणी सामने आई है।

विशेष रूप से दिलचस्प तब से एक काफी पठनीय, पांच-तरफा गोलमेज चर्चा है , जिसमें एक जोनाथन शेफ़ेलिया टिप्पणी है:

मानव खेलों से सीखने से कार्यक्रम की सीखने में तेजी आती है। मानव खेल का उपयोग किए बिना, अल्फ़ागो अपने दम पर एक मजबूत खिलाड़ी बनना सीख सकता है। सीखने की प्रक्रिया में अभी अधिक समय लगेगा।

राउंडटेबल के मेजबान के अनुसार, शेफ़र "[c] अल्बर्टा विश्वविद्यालय में सर्वप्रथम विज्ञान प्राध्यापक और चेकर्स को हल करने वाले व्यक्ति हैं"; इसलिए, संभवतः, वह टिप्पणी करने के लिए योग्य हो सकता है।

अधिक जानकारी के लिए, यहां एक और, खुली चर्चा का रिकॉर्ड है, जिसके कई प्रतिभागी सामान्य से बेहतर जानकारी देते हैं। चर्चा मैच के दौरान हुई।

इसके अलावा अद्यतन, एक और डेढ़ साल बाद: टिप्पणीकार @MarkS। लिखते हैं:

यह सिर्फ एक टिप्पणी है क्योंकि यह गो के बारे में है, न कि शतरंज, लेकिन अल्फ़ागो ज़ीरो ने "शुद्ध स्व-प्रशिक्षण" हासिल किया, बस यह बताया जा रहा है कि कौन जीता (और अंतिम स्कोर नहीं) और ली सेडॉल को हरा देने वाले एआई की तुलना में अधिक मजबूत और बहुत अधिक कुशल है। । अधिक जानकारी के लिए, deepmind.com/blog/alphago-zero-learning-scratch देखें


मेरा सुझाव है कि आप इसे और अधिक तकनीकी मंचों पर पूछें। एआई एक जटिल विषय है, और इसे समझने के लिए एक महत्वपूर्ण विशेषज्ञता होनी चाहिए। यहां के जवाबों को देखते हुए, मुझे यकीन नहीं है कि आपको उचित उत्तर मिलेगा।
साल्वाडोर डाली

5
दिए गए उत्तरों की बहुत प्रशंसा की जाती है। मैंने एक से अधिक उत्थान किए हैं। यदि मैंने अभी तक किसी को स्वीकार नहीं किया है, तो यह उत्तरों की आलोचना नहीं है, लेकिन एक मान्यता यह है कि प्रश्न इतना कठिन है, और विषय इतना नया है, कि स्वीकार्य उत्तर अभी तक उपलब्ध नहीं हो सकता है। आइए, इस प्रश्न को कुछ समय के लिए खुला छोड़ दें कि क्या समय के बाद, आज उपलब्ध नहीं है, बाद में उत्तर उपलब्ध हो जाता है। धन्यवाद।
thb

1
यह सिर्फ एक टिप्पणी है क्योंकि यह गो के बारे में है, न कि शतरंज, लेकिन अल्फ़ागो ज़ीरो ने "शुद्ध स्व-प्रशिक्षण" हासिल किया, बस यह बताया जा रहा है कि कौन जीता (और अंतिम स्कोर नहीं) और ली सेडॉल को हरा देने वाले एआई की तुलना में अधिक मजबूत और बहुत अधिक कुशल है। । अधिक जानकारी के लिए, deepmind.com/blog/alphago-zero-learning-scratch
Mark S.

1
@ मुझे लगता है कि अल्फाज़ेरो एक ऐसा AI है।
हैरी वेस्ले

1
दिसंबर 2017 की स्थिति के अनुसार AlphaZero ही केवल खेल के नियमों से शतरंज की एक शैली सिखाया arxiv.org/pdf/1712.01815.pdf और आसानी से सूखी हुई मछली को खारिज कर दिया।
नाविक

जवाबों:


14

अच्छी तरह से अच्छी तरह से अच्छी तरह से! दीपमिन्द ने एक पेपर प्रकाशित किया है जिसमें वे कहते हैं कि उन्होंने स्टॉकफिश को हराने के लिए एक न्यूरल नेटवर्क कंप्यूटर को प्रोग्राम और प्रशिक्षित किया है।

1 मिनट के सोचने के समय के अनुसार, उनके अल्फ़ाज़ेरो कंप्यूटर ने स्टॉकफ़िश को 5.6, = 25, -0 से सफेद और + 3, = 47,0- के साथ हरा दिया।

उन्होंने शतरंज, शोगी और गो खेलने के लिए 3 अलग-अलग कंप्यूटरों को "प्रशिक्षित" किया और अपने सिलिकॉन प्रतिद्वंद्वियों को पक्का किया।

प्रशिक्षण और मूल्यांकन का वर्णन इस प्रकार है -

स्व-खेल खेल इस तंत्रिका नेटवर्क के लिए नवीनतम मापदंडों का उपयोग करके, मूल्यांकन कदम और सर्वश्रेष्ठ खिलाड़ी के चयन से उत्पन्न होते हैं।

बायसिओन ऑप्टिमाइज़ेशन द्वारा अल्फ़ागो ज़ीरो ने अपनी खोज के हाइपर-पैरामीटर को ट्यून किया। अल्फाज़ेरो में हम गेम-विशिष्ट ट्यूनिंग के बिना सभी खेलों के लिए समान हाइपर-मापदंडों का पुन: उपयोग करते हैं। एकमात्र अपवाद वह शोर है जिसे अन्वेषण सुनिश्चित करने के लिए पूर्व नीति में जोड़ा गया है; यह उस गेम प्रकार के लिए कानूनी चालों की विशिष्ट संख्या के अनुपात में बढ़ाया जाता है।

अल्फ़ागो ज़ीरो की तरह, बोर्ड राज्य को प्रत्येक खेल के बुनियादी नियमों के आधार पर स्थानिक विमानों द्वारा कूटबद्ध किया जाता है। क्रियाओं को स्थानिक विमानों या एक फ्लैट वेक्टर द्वारा एन्कोड किया गया है, फिर से प्रत्येक गेम के लिए मूल नियमों पर आधारित है (देखें तरीके)।

हमने अल्फ़ाज़ेरो एल्गोरिथ्म को शतरंज, शोगी, और गो पर भी लागू किया। जब तक अन्यथा निर्दिष्ट नहीं किया जाता है, एक ही एल्गोरिदम सेटिंग्स, नेटवर्क आर्किटेक्चर, और हाइपर-पैरामीटर सभी तीन खेलों के लिए उपयोग किया जाता था। हमने प्रत्येक गेम के लिए अल्फ़ाज़ेरो के एक अलग उदाहरण को प्रशिक्षित किया। प्रशिक्षण 700,000 चरणों (आकार 4,096 के मिनी-बैच) के लिए आगे बढ़ा, बेतरतीब ढंग से आरंभिक मापदंडों से शुरू, 5,000 पहली पीढ़ी के टीपीयू का उपयोग करते हुए स्व-प्ले गेम और 64 दूसरी पीढ़ी के टीपीयू को तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए। विधियों में प्रशिक्षण प्रक्रिया के आगे के विवरण प्रदान किए गए हैं।

चित्र 1, एलो स्केल (10) पर प्रशिक्षण चरणों के एक समारोह के रूप में, सेल्फ-प्ले सुदृढीकरण सीखने के दौरान अल्फ़ाज़ेरो के प्रदर्शन को दर्शाता है। शतरंज में, अल्फ़ाज़ेरो ने स्टॉकफ़िश को केवल 4 घंटे (300k कदम) के बाद मात दी; शोगी में, अल्फाज़ेरो ने एल्मो को 2 घंटे (110k कदम) से कम समय के बाद मात दी; और गो में, अल्फाज़ेरो ने 8 घंटे (165k कदम) के बाद अल्फा गो ली (29) को पीछे छोड़ दिया।

हमने शतरंज, शोगी और गो में क्रमशः अल्फाफ़ेरो, एल्मो और अल्फ़ागो ज़ीरो (3 दिनों के लिए प्रशिक्षित) के पिछले संस्करण के खिलाफ अल्फ़ाज़ेरो की पूरी तरह से प्रशिक्षित उदाहरणों का मूल्यांकन किया, टूर्नामेंट में 100 खेल मैच प्रति मिनट एक मिनट के नियंत्रण में खेला। अल्फ़ाज़ेरो और पिछले अल्फ़ागो ज़ीरो ने 4 टीपीयू के साथ एक मशीन का इस्तेमाल किया। स्टॉकफिश और एल्मो ने 64 थ्रेड और 1GB के हैश आकार का उपयोग करके अपने सबसे मजबूत कौशल स्तर पर खेला। अल्फाज़ेरो ने सभी विरोधियों को हरा दिया, स्टॉकफिश को शून्य गेम और एल्मो को आठ गेम खो दिए (कई उदाहरण खेलों के लिए अनुपूरक सामग्री देखें), साथ ही साथ अल्फ़ागो ज़ीरो (तालिका 1 देखें) के पिछले संस्करण को हराया।

उनके कंप्यूटर ने मशीन सीखने के कार्यों के लिए Google द्वारा विकसित एक "TPU" ( Tensor Processing Unit ) नामक चिप के नए रूप का उपयोग किया ।

वे यह भी दावा करते हैं कि उनके मोंटे कार्लो ट्री सर्च एल्गोरिदम पारंपरिक अल्फा-बीटा सर्च एल्गोरिदम की तुलना में बेहतर और "मानव जैसा" है।

हमने स्टॉकफिश और एल्मो द्वारा उपयोग किए जाने वाले अत्याधुनिक अल्फा-बीटा खोज इंजनों की तुलना में अल्फाज़ेरो की एमसीटीएस खोज के सापेक्ष प्रदर्शन का विश्लेषण किया। अल्फाज़ेरो शतरंज में प्रति सेकंड 80 हजार और शोगी में 40 हजार, स्टॉकफिश के लिए 70 मिलियन और एल्मो के लिए 35 मिलियन की खोज करता है। अल्फ़ाज़ेरो अपने सबसे बड़े होनहार विविधताओं पर बहुत अधिक चुनिंदा रूप से ध्यान केंद्रित करने के लिए अपने गहरे तंत्रिका नेटवर्क का उपयोग करके मूल्यांकन की कम संख्या के लिए क्षतिपूर्ति करता है - मूल रूप से शान्नोन द्वारा प्रस्तावित, खोज के लिए अधिक "मानव-जैसा" दृष्टिकोण। चित्रा 2 सोच के समय के संबंध में प्रत्येक खिलाड़ी की मापनीयता को दिखाता है, जो एलो स्केल पर मापा जाता है, स्टॉकफिश या एल्मो के सापेक्ष 40ms के विचार समय के साथ। अल्फाज़ो के MCTS स्टॉकफिश या एल्मो की तुलना में सोचने के समय के साथ अधिक प्रभावी ढंग से बढ़े,

यहाँ कुछ खेल हैं -

स्टॉकफ़िश - अल्फाज़ेरो, 0-1
1. E4 E5 2. Nf3 NC6 3. BB5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. Nbd2 OO 8. QE1 F6 9. Nc4 Rf7 10 ए 4 Bf8 11. Kh1 Nc5 12. a5 NE6 13। Ncxe5 fxe5 14. Nxe5 Rf6 15. NG4 Rf7 16. Ne5 Re7 17. ए 6 सी 5 18. F4 Qe8 19. axb7 Bxb7 20. Qa5 ND4 21. QC3 RE6 22. Be3 RB6 23. Nc4 RB4 24. बी 3 a5 25. Rxa5 Rxa5 26. Nxa5 Ba6 27. Bxd4 Rxd4 28. Nc4 Rd8 29. G3 h6 30. Qa5 Bc8 31. Qxc7 BH3 32. Rg1 Rd7 33. Qe5 Qxe5 34. Nxe5 Ra7 35. Nc4 G5 36. RC1 Bg7 37। Ne5 Ra8 38. Nf3 Bb2 39. Rb1 Bc3 40. Ng1 Bd7 41. Ne2 Bd2 42. Rd1 Be3 43. Kg2 Bg4 44. Re1 Bd2 45. Rf1 Ra2 46. ​​h3 Bxe2 47. Rf2 Bxf4 48. Rx2। Be5 49 RF2 Kg7 50. g4 BD4 51. re2 Kf6 52. E5 + Bxe5 53. केएफ 3 RA1 54. RF2 1 रुपया 55 Kg2 + BF4 56. सी 3 RC1 57. d4 Rxc3 58. dxc5 Rxc5 59 बी 4 RC3 60. h4 Ke5 61 । hxg5 hxg5 62. Re2 + Kf6 63. Kf2 Be5 64. Ra2 Rc4 65. Ra6 + Ke7 66. Ra5 Ke6 67. Ra6 + Bd6 0-1

खेल

स्टॉकफ़िश - अल्फाज़ेरो, 0-1
1. E4 E5 2. Nf3 NC6 3. BB5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. सी 3 OO 8. d4 BD6 9. Bg5 Qe8 10 1 रुपया F6 11. Bh4 Qf7 12. Nbd2 A5 13। Bg3 Re8 14. Qc2 Nf8 15. c4 c5 16. d5 b6 17. Nh4 g6 18. Nhf3 Bd7 19. Rad1 Re7 20. h3 Qg7 21. Qc3 Ra6 201 22. a3 h6 23. Bh4 Rf7 24. Bg3 Rfe7 25. Bh4 Rf7 26. Bg3 a4 27. Kh1 Rfe7 28. Bh4 Rf7 29. Bg3 Rfe7 30. Bh4 g5 31. Bg3 Ng6 32. Nf1 Rf7 33. Ne3 Ne7 34. Qd3 h5 35. h4 Nc8 36. Re2 g4 37। Nd2 Qh7 38. Kg1 Bf8 39. Nb1 Nd6 40. Nc3 Bh6 41. Rf1 Ra8 42. Kh2 Kf8 43. Kg1 Qg6 44. f4 gxf3 45. Rxf3 Bxe3 + 46. ​​Rfxe3 Ke7 47. Be1 Qh7 48 R. RG7 49 Rxg7 + Qxg7 50. RE3 Rg8 51. RG3 Qh8 52. NB1 Rxg3 53. Bxg3 Qh6 54. ND2 Bg4 55 KH2 KD7 56. बी 3 axb3 57. Nxb3 Qg6 58. ND2 BD1 59 Nf3 Ba4 60. ND2 Ke7 61 । Bf2 Qg4 62. Qf3 Bd1 63. Qxg4 Bxg4 64. a4 Nb7 65. Nb1 Na5 66. Be3 Nxc4 67. Bc1 Bd7 68. Nc3 c6 69. Kg1 cxd5 70. exd5 Bf5 71. Kf2 Nd6 72. Be3 NE4 + 73. Nxe4 Bxe4 74 a5 bxa5 75 Bxc5 + KD7 76 d6 Bf5 77 Ba3 Kc6 78 Ke1 Kd5 79 Kd2 Ke4 80 BB2 Kf4 81. BC1 Kg3 82. Ke2 ए 4 83 केएफ 1 Kxh4 84। Kf2 Kg4 85. Ba3 Bd7 86. Bc1 Kf5 87. Ke3 Ke6 0-1

सफेद: अल्फ़ाज़ेरो ब्लैक: स्टॉकफ़िश

अल्फाज़ेरो - स्टॉकफ़िश, 1-0
1. Nf3 Nf6 2. सी 4 बी -6 3. d4 E6 4. G3 Ba6 5. Qc2 सी 5 6. d5 exd5 7. cxd5 BB7 8. BG2 Nxd5 9. OO NC6 10 RD1 Be7 11. Qf5 Nf6 12. E4 G6 13। Qf4 O-O 14. e5 Nh5 15. Qg4 Re8 16. Nc3 Qb8 17. Nd5 Bf8 18. Bf4 Qc8 19. h3 Ne7 20. Ne3 Bc6 21. Rd2 Ng7 22. Rf6 Qb7 23. Bh6 Nd5 24. Nxd5 Bxd5 25. RD1 NE6 26. Bxf8 Rxf8 27. Qh4 Bc6 28. Qh6 Rae8 29. RD6 Bxf3 30. Bxf3 Qa6 31. h4 Qa5 32. RD1 सी 4 33. Rd5 QE1 + 34. Kg2 सी 3 bxc3 35. Qxc3 36. h5 Re7 37। Bd1 Qe1 38. Bb3 Rd8 39. Rf3 Qe4 40. Qd2 Qg4 41. Bd1 Qe4 42. h6 Nc7 43. Rd6 Ne6 44. Bb3 Qee5 45. Rd5 Qh8 46. ​​Qb4 Nc5 47. Rxc5 bc5 48 Rde8 49 Rf6 Rf8 50. Qf4 A5 51. g4 d5 52. Bxd5 Rd7 53. BC4 A4 54. G5 a3 55 Qf3 RC7 56. Qxa3 Qxf6 57. gxf6 Rfc8 58. Qd3 Rf8 59 Qd6 Rfc8 60. ए 4 1- 0

बस कागज पढ़ो। वास्तव में आश्चर्यजनक। बेशक इसका मतलब यह नहीं है कि आप अल्फाज़ेरो के साथ संयुक्त पारंपरिक तकनीकों के साथ भी कुछ मजबूत नहीं बना सकते हैं, लेकिन फिर भी ...
BlindKungFuMaster

10

ठीक है, मुझे मानना ​​होगा कि मैं गलत था। हालांकि मैं यह सुनिश्चित करूंगा कि यह विशेषज्ञ की राय के ज्ञान के कारण था, न कि सामान्य रूप से उदासीनता: कागज का हवाला देने के लिए : "हालांकि, पारंपरिक MCTS का उपयोग करने वाले शतरंज प्रोग्राम अल्फा-बीटा खोज कार्यक्रमों, (4, 24) की तुलना में बहुत कमजोर थे; जबकि अल्फा तंत्रिका नेटवर्क पर आधारित -बेटा कार्यक्रम पहले तेज, दस्तकारी मूल्यांकन कार्यों के साथ प्रतिस्पर्धा करने में असमर्थ रहे हैं। "

जाहिर है, शतरंज रणनीतिक रूप से काफी गहरा है, कि आप किसी को रणनीतिक रूप से बाहर कर सकते हैं, जो आपकी गणना करने में सक्षम होगा। मेरे लिए यह एक बड़ा आश्चर्य है क्योंकि शतरंज के इंजनों का विकास विपरीत दिशा में हो रहा है। (स्पष्ट रूप से अभी भी थोड़ी सी चेतावनी है कि क्या अल्फ़ाज़ेरो स्टॉकफ़िश की तुलना में वास्तव में मजबूत है: स्टॉकफ़िश हैशटेबल्स के लिए सिर्फ 1 जीबी के साथ खेला गया था और 64 कोर वास्तव में चार टीपीयू के लिए एक मैच नहीं हो सकता है)

यह भी वास्तव में, वास्तव में रोमांचक होने वाली बात है, क्योंकि अल्फ़ाज़ेरो में पारंपरिक इंजनों से बहुत अलग ताकत है।

इसका अर्थ यह भी है कि मैं एक तकनीकी सफलता के रूप में अल्फाजो के महत्व के बारे में अपने विश्वास को बहुत अधिक अपडेट करता हूं। मूल रूप से शोगी, गो और शतरंज एक एकल सेटअप के साथ पूरी तरह से अद्भुत है, दर्जनों अन्य खेलों का उल्लेख नहीं करना जो संभवतः अल्फ़ाज़ेरो द्वारा एक अलौकिक स्तर पर खेला जा सकता है।

इस बारे में एक अच्छी व्याख्या है कि अल्फा-बीटा खोज (कागज से) की तुलना में एमसीटीएस वास्तव में शतरंज के लिए भी एक अच्छा विचार है: "अल्फाज़ेरो रैखिक के बजाय एक गहरे तंत्रिका नेटवर्क पर आधारित गैर-रेखीय फ़ंक्शन सन्निकटन का उपयोग करके पदों का मूल्यांकन करता है। विशिष्ट शतरंज कार्यक्रमों में उपयोग किए जाने वाले फ़ंक्शन सन्निकटन। यह एक बहुत अधिक शक्तिशाली प्रतिनिधित्व प्रदान करता है, लेकिन यह भी अनुमानित सन्निकटन त्रुटियों का परिचय दे सकता है। एमसीटीएस इन सन्निकटन त्रुटियों पर औसत होता है, इसलिए एक बड़े उप-योग का मूल्यांकन करते समय रद्द करने की प्रवृत्ति होती है। इसके विपरीत, अल्फा-बीटा खोज। एक स्पष्ट मिनी-अधिकतम की गणना करता है, जो सबट्री के मूल में सबसे बड़ी सन्निकटन त्रुटियों का प्रचार करता है । " (मेरे द्वारा जोर)

यहां मेरा पुराना जवाब है, अभी भी कुछ मान्य बिंदु हैं, हालांकि निष्कर्ष वास्तविकता से प्रभावित होने के बावजूद।

सबसे पहले एल्फागो एक सामान्य गेम खेलने की प्रणाली नहीं है। यह एक कार्यक्रम है जिसे पूरी तरह से खेलने के लिए डिज़ाइन किया गया है और कुछ नहीं। हालाँकि यह कुछ बिल्डिंग ब्लॉक्स से निर्मित होता है, जिसमें बहुत अधिक व्यापक प्रयोज्यता होती है, जैसे कि कंफर्टेबल न्यूरल नेटवर्क , जिनका उपयोग इमेज रिकॉग्निशन में किया गया है और जिनका मेडिकल डायग्नोस्टिक्स में तुरंत उपयोग होता है, और सुदृढीकरण सीखने का उपयोग किया जाता है, जो अटारी गेम का उल्लेख करने के लिए उपयोग किया जाता है। लेख।

इसके अलावा, वर्तमान इंजन सेल्फ-प्ले करके "सीखते हैं" : "ओवरनाइट, लेफ़लर के छह कंप्यूटर प्रत्येक आठ घंटे की अवधि के दौरान 14,000 से अधिक गेम खेलते हैं।" 14,000 गेम्स के दौरान छह मशीनें कई गेम हैं, "वे कहते हैं। और हर खेल खेला जाता है, डेटाबेस गहरा और समृद्ध होता जाता है। कंप्यूटर को एक-दूसरे के खिलाफ खेलते हुए देखने में भी रुचि है। लेफ्लर की व्यस्त व्हर्लिंग मशीनों का नतीजा कोमोडो की लगातार बढ़ती प्रगति है। "

अपने प्रश्न के थोक में आने के लिए:

शतरंज और गो के बीच एक महत्वपूर्ण अंतर है, कम से कम एक प्रोग्रामर के दृष्टिकोण से। शतरंज एक सामरिक खेल का अधिक है, जबकि जाना एक रणनीतिक खेल का अधिक है। इसका मतलब है कि शतरंज की गणना में गहराई से स्थिति का मूल्यांकन किया जाता है। यह मूल रूप से महत्वपूर्ण अंतर्दृष्टि है जो फ्रिट्ज़, श्रेडर, जूनियर और नई पीढ़ी जैसे कि फ्रूट, रबका, हौदिनी, स्टॉकफिश, कोमोडो जैसे "पुराने" इंजनों को अलग करती है। क्योंकि प्रत्येक पंक्ति के अंत में आपको स्थिति का मूल्यांकन करना होता है और आप बहुत सारी लाइनों की गणना करना चाहते हैं और मूल्यांकन की गुणवत्ता उतनी महत्वपूर्ण नहीं है जितनी कि खोज की गहराई, शतरंज के इंजनों में झुकाव और तेजी से मूल्यांकन कार्य हैं।

दूसरी ओर कंप्यूटर के लिए सामरिक जटिलता बहुत बड़ी है। नतीजतन पदों का मूल्यांकन और चाल सही ढंग से महत्वपूर्ण है। अल्फाजो खेल के लिए नया क्या है, यह मूल्यांकन शक्ति है, जो कि दृढ़ तंत्रिका नेटवर्क पर आधारित है

अंत में मेरी बात पर ध्यान दें: जबकि शतरंज मूल्यांकन कार्य दुबले और तेज होते हैं, तंत्रिका नेटवर्क में लाखों, कभी-कभी अरबों पैरामीटर होते हैं। क्योंकि इस संदर्भ में "सीखना" का अर्थ है मापदंडों को कम करना, स्वयं सीखने के कार्यक्रमों के लिए बहुत अधिक संभव प्रगति है।

तो, हाँ, आप शतरंज इंजन बनाने के लिए एल्फगो जैसे सेटअप का उपयोग कर सकते हैं, लेकिन यह विशेष रूप से अच्छा नहीं होगा। मूल्यांकन फ़ंक्शन को चलाने में इतना समय लगेगा, कि आपको आवश्यक खोज गहराई (जो कि एल्फगो करता है) को पाने के लिए विशाल समूह का उपयोग करना होगा। आप एक बहुत अच्छा मूल्यांकन समारोह बना सकते हैं , लेकिन स्पीड ट्रेडऑफ़ इसके लायक नहीं है।


1
मैं आपसे इस बात पर असहमत हूं कि आप शतरंज इंजन बनाने के लिए एल्फागो जैसे सेटअप का उपयोग कर सकते हैं, लेकिन यह विशेष रूप से अच्छा नहीं होगा । मैं इस तथ्य पर कुछ शर्त लगा सकता हूं कि एक साल से भी कम समय में, एक शतरंज इंजन होगा जो एनएन पर बहुत निर्भर करता है (यह संभवतः एक पेड़ की खोज और मोंटे कार्लो होगा, लेकिन यह महत्वपूर्ण नहीं है), जो करीब होगा अत्याधुनिक स्टॉकफिश। और यह इंजन सुपर कॉरपोरेशन से उत्पन्न नहीं होगा (क्योंकि शतरंज में रुचि एआई शोधकर्ताओं से बहुत पहले फीकी पड़ गई थी), बल्कि एक मजबूत हॉबीस्ट से।
साल्वाडोर डाली

मोंटे कार्लो शतरंज में पूरी तरह से बेकार है। और जबकि NN बेकार नहीं हैं, वे वैसे ही बहुत धीमे हैं।
BlindKungFuMaster

3
MCTS बेकार क्यों है? यह एक मौजूदा बोर्ड की स्थिति से शुरू करने के लिए बहुत मायने रखता है, 1000 गेम को 5 की नोड गहराई के साथ चलाएं और देखें कि नोड के पास बेहतर संभावनाएं क्या हैं। यह बहुत कुछ वैसा ही है जैसा आप करते हैं, जब आप डेटाबेस में चालों के आंकड़ों को देखते हैं और देखते हैं कि 14. Kg4 के बाद सफेद 25% जीतता है, लेकिन 14. Rb2 के साथ यह 45% से जीतता है। क्या आपके पास पूरी तरह से बेकार वाक्यांश का कोई प्रमाण है ।
साल्वाडोर डाली

2
MCTS यादृच्छिकता के बारे में नहीं है, यह अनुकरण के बारे में है। MC के बारे में बुनियादी परिचयात्मक पुस्तकें आपको केवल बिंदु दिखाने के लिए यादृच्छिकता का उदाहरण दिखाती हैं। आप 6 की नोड गहराई के साथ कई बार एक तेज स्थिति खेल सकते हैं जो सुपर फास्ट (और अभी भी बहुत विश्वसनीय) है, और आपको लगभग अनुमान लगाने की अनुमति देगा कि कौन सा कदम बेहतर है।
साल्वाडोर डाली

1
मेरे कथन बोल्ड नहीं हैं, वे मुख्यधारा हैं। बस कुछ शतरंज प्रोग्रामिंग साइटों को पढ़ें, आपको कमोबेश मेरे तर्क मिलेंगे। MCTS एक दशक से जाना जाता है और शतरंज में अन्य सामान सिर्फ बेहतर काम करता है। दूसरी ओर, मुझे नहीं लगता कि आपके बयान आंत से ज्यादा कुछ पर आधारित हैं, इसलिए यह मेरी आखिरी टिप्पणी होगी।
BlindKungFuMaster

5

एक परियोजना है जिसका नाम स्पैक्फ़िश है जो बस यही करने का प्रयास करता है। यह एक न्यूरल नेटवर्क-आधारित इंजन है, जिसका उद्देश्य "यह पता लगाना है कि कंप्यूटर में हाल के एडवांस को कंप्यूटर की दुनिया में कैसे लागू किया जा सकता है"।

यह एक युवा परियोजना है और इंजन अभी भी काफी कमजोर है। इसे खेलना दिलचस्प है, क्योंकि इसकी स्थिति का खेल इसकी रणनीति से बेहतर है।


2
आप उस अंतिम वाक्य के साथ मजाक नहीं कर रहे थे। मैंने इसके खिलाफ एक दो गेम खेले, और हर एक को काफी लेवल एंडगेम में मिला, केवल स्पैकफिश को देखने के लिए अचानक ड्रॉप मटेरियल (एक मामले में सिर्फ एक बदमाश को कहीं से बाहर लटकाया)। अजीब।
ETD

जब से आपने उत्तर दिया है, गो AI के संबंध में नई जानकारी सामने आई है। मैंने इस समाचार को लिंक करने के लिए प्रश्न को अपडेट कर दिया है, यदि यह आपकी रुचि है।
thb

Spawkfish के लिए वेबसाइट गायब हो गई लगता है ...
hkBst

4

क्या एक समान AI शतरंज में जीत सकता है? क्या यह शुद्ध स्व-प्रशिक्षण प्राप्त कर सकता है?

संक्षिप्त जवाब नहीं है!"

शतरंज और गो उनकी सादगी और सापेक्ष जटिलता में मौलिक रूप से भिन्न हैं जो उनके ज्यामिति से और आप कैसे जीते हैं। ये एक कार्यक्रम बनाने के लिए गठबंधन करते हैं जो एक बेकार में दूसरे पर अच्छा होता है।

शतरंज में आप प्रतिद्वंद्वी की जांच करके जीतते हैं, अंक की गिनती नहीं होती है। बेशक आप एक समझदार प्रतिद्वंद्वी को चेकमेट देने से पहले अक्सर इस्तीफा दे देंगे, लेकिन सिद्धांत एक ही है। खेल के अंत में अधिक अंक होने से आप जीत जाते हैं। अगर मेरे पास एक राजा और रानी है और आपके पास एक राजा, बदमाश और मोहरा है, लेकिन आपने एक किले का निर्माण किया है, तो इससे कोई फर्क नहीं पड़ता कि मेरे पास रानी के लिए 9 अंक हैं और आपके पास अपने बदमाश और मोहरे के लिए सिर्फ 6 अंक हैं। खेल एक ड्रा है।

इससे शतरंज और जाने के बीच की जटिलता में मूलभूत अंतर आता है। जाने में आप केवल स्कोर रख सकते हैं और आपको पता चल जाएगा कि कौन जीत रहा है। शतरंज में एकमात्र तरीका है जिससे आप जान सकते हैं कि कौन जीत रहा है वह शुद्ध गणना से है। इस लिहाज से शतरंज जाना ज्यादा जटिल है।

एक ही समय में, दो गेम की ज्यामिति के कारण, शतरंज की तुलना में अधिक संभावनाएं परिमाण के आदेश हैं। इस अर्थ में गो शतरंज की तुलना में बहुत अधिक जटिल है।

एक शतरंज कार्यक्रम एक निश्चित गहराई तक सभी संभावित चालों की क्रूर बल गणना द्वारा काम करता है जो इसकी ताकत निर्धारित करता है। एक गो कार्यक्रम इस तरह से काम नहीं कर सकता है और शुरुआती स्तर की तुलना में अधिक उन्नत कुछ भी खेल सकता है।

जाने का मूल उद्देश्य अपने प्रतिद्वंद्वी से अधिक क्षेत्र को नियंत्रित करना है। एक गेम के अंत में यह फर्क नहीं पड़ता कि क्या अंतर 1 पत्थर या 100 पत्थर है, दोनों जीत रहे हैं। हर बार जब आप एक पत्थर रखते हैं तो आप दो चीजें करते हैं। आप अपने क्षेत्र को बढ़ाते हैं, या तो संभावित या वास्तविक, और आप अपने प्रतिद्वंद्वी को कम करते हैं।

कभी-कभी, जब क्षेत्र में वास्तविक वृद्धि या कमी होती है, तो चाल के मूल्य की गणना करना आसान होता है, लेकिन जब यह संभावित होता है तो इसका मूल्यांकन करना बहुत मुश्किल होता है। एक कमजोर गो खिलाड़ी के रूप में, मैं "संभावित" की तुलना में "वास्तविक" को बहुत बेहतर समझता हूं और एक मजबूत खिलाड़ी केंद्र में अधिक से अधिक संभावित क्षेत्र बनाकर मुझे हरा देगा, जबकि मैं किनारों और कोनों में छोटे वास्तविक क्षेत्र का निर्माण करता हूं। मजबूत खिलाड़ी ने अंतर्ज्ञान के माध्यम से न्याय करने और बहुत सारे खेल खेलने से महसूस करने और "संभावित" क्षेत्र बनाने के तरीके को पहचानने की क्षमता का निर्माण किया होगा।

पहले मैंने कहा कि हर बार जब मैं एक पत्थर रखता हूं तो यह मेरे क्षेत्र (वास्तविक या संभावित) को बढ़ाता है और मेरे प्रतिद्वंद्वी को कम कर देता है (वास्तव में अगर यह एक मूर्खतापूर्ण कदम है तो यह विपरीत होगा!)। किसी भी स्थिति में सभी चालें समान नहीं होती हैं। एक स्थिति में रखा गया पत्थर दूसरे में रखे गए पत्थर की तुलना में बहुत अधिक या बहुत कम हो सकता है।

आमतौर पर एक खेल में छोटे "झगड़े" होंगे जहां खिलाड़ी एक दूसरे के पास अपने पत्थर रखते हैं, अपने क्षेत्र को चिह्नित करते हैं और अपने प्रतिद्वंद्वी को सीमित करते हैं। इस बीच बोर्ड के दूसरे हिस्से में बाहर क्षेत्र शुरू करने या कहीं और लड़ाई शुरू करने की संभावना है जहां दोनों खिलाड़ियों के पास पहले से ही पत्थर हैं।

इन स्थितियों में जो बहुत महत्वपूर्ण है वह यह जानती है कि एक लड़ाई को कब रोकना है, क्योंकि संभावित लाभ कम हो गया है, और या तो एक और लड़ाई पर स्विच करने या शायद कुंवारी क्षेत्र में हड़ताल करें। कभी-कभी यह कठिन गणना पर निर्भर करता है लेकिन अक्सर यह बहुत अधिक अस्पष्ट है और गणना के अधीन नहीं है। एक कमजोर खिलाड़ी के रूप में यह वह जगह है जहां एक मजबूत भुगतानकर्ता मुझे हर बार कुचल देगा।

कंप्यूटर इन स्थितियों में क्या करता है किसी विशेष कदम के लिए एक अपेक्षित स्कोर उत्पन्न करने के लिए संभाव्य तरीकों का उपयोग करें। कभी-कभी वास्तविक मूल्य थोड़ा कम हो जाएगा, कभी-कभी थोड़ा अधिक लेकिन लंबी दौड़ में यह अधिक या कम हो जाएगा। यह इस उम्मीद के साथ उच्चतम प्रत्याशित मूल्य के साथ कदम उठाता रहेगा कि एक खेल की लंबी दौड़ में छोटी त्रुटियां रद्द हो जाएंगी और उसकी रणनीति जीत जाएगी।

यह एक रणनीति नहीं है जो शतरंज के खिलाड़ियों के लिए जानी जाती है और वह नहीं है जो शतरंज में काम करने वाली है। यह कुछ ऐसा है जो किसी को भी परिचित लगता है जो शेयर बाजारों में आगे बढ़ता है। यह कुछ ऐसा ही लगता है जिसे "उच्च आवृत्ति व्यापार" कहा जाता है, जहां कंप्यूटर हजारों छोटे दांव लगाएगा या बाजार में "निकेल और डाइम" के लिए हर सेकंड प्रस्तावित दांव लगाएगा और शायद यह भी मिलिसेकंड की अवधि में अपने पक्ष में बहुत मामूली रूप से स्थानांतरित करने के लिए।

पहले से ही वित्तीय बाजारों में इन प्रकार के एल्गोरिथम ट्रेडिंग का प्रभुत्व है जो बताता है कि इस तरह के कार्यक्रम पहले से ही बोर्ड गेम की तुलना में कहीं अधिक आकर्षक क्षेत्र में जीत गए हैं।


4
हाई फ्रीक्वेंसी ट्रेडिंग कुछ भी नहीं है जैसे कि खेलना। पूरी तरह से अलग एल्गोरिदम afaik। इसके अलावा, आपके जवाब में बहुत सारी दिलचस्प चीजें हैं, लेकिन मुख्य बिंदु को देखने के लिए यह कठिन है, शायद एक टीएल? डीआर जोड़ें। ;-)
ब्लाइंडकुंगफ़ेस्टर

@BlindKungFuMaster HFT और AlphaGo के पीछे अंतर्निहित सिद्धांत एक संभाव्य है। इस "चाल" से अपेक्षित लाभ x% है। लंबे समय तक इस तरह के चाल / दांव का संचय अल्फ़ाज़ो के लिए खेल जीतने या एचएफटी व्यापारियों के लिए एक भाग्य बनाने जा रहा है। हालांकि हर अब और फिर ली से-डोल से "फ्लैश क्रैश" या "आश्चर्य कदम" होगा जो एक जीत / लाभ को नुकसान में बदल देता है। यह किसी भी तरह से इसकी प्रोग्रामिंग को अमान्य नहीं करता है। यह हर बार निरपेक्ष सबसे अच्छा कदम खोजने के लिए क्रमादेशित नहीं है। यह सेल्समैन समस्या को हल करने के लिए छद्म समाधान जैसा है जो 5% सर्वश्रेष्ठ में प्राप्त करने की कोशिश करता है।
ब्रायन टावर्स

जब से आपने उत्तर दिया है, गो AI के संबंध में नई जानकारी सामने आई है। मैंने इस समाचार को लिंक करने के लिए प्रश्न को अपडेट कर दिया है, यदि यह आपकी रुचि है।
THB

1
@thb, मेरा मानना है कि इस सवाल का जवाब कुछ हद तक अप्रचलित AlphaZero की नई सफलता को देखते हुए अब है, के रूप में arxiv.org/abs/1712.01815
मार्क एस

@ क्यों नहीं? अपने स्वयं के उथले मानकों से दूसरों का न्याय न करें।
ब्रायन टावर्स

4

(कोई भी व्यक्ति चाहता है कि अल्फ़ागो के लिए एक गहरी तकनीकी चर्चा मेरी पोस्ट पर कैसे दिखे )

संक्षिप्त उत्तर : नहीं

लंबे उत्तर :

सबसे पहले, हमें यह समझने की आवश्यकता है कि Google ने अल्फा-बीटा को AlphaGo में क्यों लागू नहीं किया। स्टॉकफिश और कोमोडो (और सभी शतरंज इंजनों) में अल्फा-बीटा है, अल्फा गो क्यों नहीं होगा?

कारण : कोई आसान और सस्ता तरीका नहीं है जो सांख्यिकीय रूप से किसी गो स्थिति का सही मूल्यांकन कर सके।

शतरंज में, हम हमेशा सामग्री की गणना कर सकते हैं, एक स्थिति का मूल्यांकन करने के लिए एक बहुत प्रभावी तरीका। हालांकि सही नहीं है, यह बहुत तेज़ है और शतरंज के लिए बहुत अच्छा प्रॉक्सी है।

मोंटे-कार्लो के साथ राज्य स्थान की खोज अल्फा-बीटा के लिए एक अवर विधि है। यदि वे कर सकते थे तो Google ने अल्फा-बीटा को लागू किया होगा, लेकिन वे नहीं कर सकते थे। इस प्रकार, वे कुछ अधिक धीमी गति से उपयोग करने के लिए मजबूर हुए।

शतरंज का इंजन मोंटे-कार्लो के साथ बेहतर नहीं खेलेगा।


पुनर्विचार करने का समय, या शायद अभी तक नहीं?
Evargalo

3

मैं अन्य उत्तरों से असहमत हूं। मैं कंप्यूटर वैज्ञानिक हूं, जो कृत्रिम बुद्धिमत्ता के क्षेत्र में पेशेवर रूप से काम करता है और शतरंज में एक उम्मीदवार और igo में 3 डैन भी हूं।

मुझे लगता है कि इस समय यह स्पष्ट नहीं है कि क्या डीप माइंड के तरीकों को शतरंज पर लागू किया जा सकता है, लेकिन मुझे लगता है कि यह संभव है।

वर्तमान में, शीर्ष शतरंज खेलने के कार्यक्रम तेजी से उत्तराधिकार पर भरोसा कर रहे हैं और शतरंज के लिए अल्फ़ागो वास्तुकला का उपयोग करने का प्रयास कुछ मायनों में सोच की एक ही पंक्ति में होगा।

अल्फा गो की एक प्रमुख वास्तुशिल्प विशेषता जो बदलनी होगी, वह है मुख्य वर्गों (या हीट मैप्स) की पहचान करने की इसकी विधि, जो कि igo जैसे गेम के लिए विशेष रूप से है और सीधे शतरंज पर लागू नहीं होती है। इस विधि के कुछ एनालॉग को शतरंज के लिए अल्फ़ागो वास्तुकला को प्रासंगिक बनाने के लिए विकसित करना होगा। उदाहरण के लिए, हमारे पास कुंजी वर्गों की बजाय "कुंजी टुकड़े" की अवधारणा हो सकती है।

मुझे लगता है कि अल्फाजो आर्किटेक्चर शतरंज के लिए प्रासंगिक नहीं है क्योंकि शतरंज अधिक सामरिक है, यह बहुत अच्छा दावा नहीं है क्योंकि अंततः दोनों के पास खोज के पेड़ हैं जो आकार में समान हैं कि अल्फाजो निश्चित रूप से शतरंज के लिए अनुकूलित हो सकते हैं।


मैंने आपको एक +1 दिया, क्योंकि आपके दावे सही हो सकते हैं, लेकिन जब तक कोई पेपर प्रकाशित नहीं करता, तब तक हम निश्चित रूप से नहीं जानते।
लघुशंका

उह? ब्रायन टावर्स द्वारा बताए गए अनुसार कागज पहले से मौजूद है। जवाब हां है।
थर्मोमेग्नेटिक कंडेंस्ड बोसन

लगता है कि मैं सही था, हे।
सेसिल डी वीरे

@CecilDeVere अन्य उत्तरों से असहमत नहीं है, उनमें से 2 ने सही उत्तर दिया। और यह बताते हुए नहीं कि यह इस समय अस्पष्ट है, जबकि यह स्पष्ट है कि इसका जवाब हां है (शायद नहीं)।
थर्मोमेग्नेटिक कंडेंस्ड बोसन

3

इसका जवाब है हाँ! Google ने कल ही यह साबित कर दिया था, जब अल्फ़ाज़ेरो ने नियमों के बारे में केवल ज्ञान और बिना किसी मानव ज्ञान के उपयोग के शुद्ध आत्म प्रशिक्षण के साथ सर्वश्रेष्ठ शतरंज कार्यक्रम को हराया था। स्वीकृत उत्तर गलत है। लेख का लिंक यहाँ है: लिंक


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.