अल्फ़ाज़ो को समझना


29

अभी हाल ही में यह खबर सामने आई थी कि अल्फाबेट की डीपमाइंड रिसर्च टीम ने शोगी और शतरंज खेलने के लिए अपने मशीन लर्निंग इंजन को बढ़ाया है। जाहिर तौर पर, केवल कुछ घंटों के आत्म-अध्ययन के बाद, जिसका अर्थ है कि केवल खुद के खिलाफ खेलना खेल के नियमों को देखते हुए, शतरंज में इसका प्रदर्शन पहले से ही मौजूदा शीर्ष इंजनों जैसे स्टॉकफिश 8 से आगे निकल गया है।। मुझे व्यक्तिगत रूप से अभी तक पता नहीं है कि माचिस की तासीर किस हालत में थी, क्योंकि स्टॉकफिश प्रदर्शन करने के लिए किस स्थिति में थी, क्योंकि अगर गणना के समय सीमित इंजन बहुत खराब प्रदर्शन करने में सक्षम हैं। किसी भी मामले में, यह एक बहुत ही प्रभावशाली उपलब्धि है, क्योंकि भले ही यह पता चला है कि स्टॉकफिश को और अधिक बेहतर तरीके से स्थापित किया जा सकता है, कुछ अतिरिक्त घंटों के प्रशिक्षण के साथ, अल्फाज़ेरो फिर से खेल के स्तर को पार कर जाएगा, जिसका अर्थ है अल्फ़ाज़ेरो का मौलिक रूप से किसी भी वर्तमान से अधिक मजबूत होना। मूल्यांकन मूल्यांकन कार्यों के आधार पर मानक शतरंज इंजन।

अब इस खबर के प्रकाश में, यह बहुत अच्छा होगा अगर कोई मशीन के कामकाज में मुख्य अंतरों पर विस्तृत रूप से शतरंज इंजन सीख सकता है जो कि मानक इंजनों की तुलना में हम सभी उपयोग करने के आदी हैं। अधिक संक्षेप में:

  1. क्या मूल्यांकन का वह कार्य नहीं है जो अल्फ़ाज़ेरो उपयोग करता है, मशीन सीखने के तरीकों से प्रशिक्षित होता है, अंत में सिर्फ एक और अनुमानी मूल्यांकन समारोह? यदि हां, तो यह कहना उचित होगा कि दो इंजनों के मूल्यांकन कार्यों के बीच मूलभूत अंतर, तथ्य यह है कि स्टॉकफिश के पास मनुष्यों द्वारा अनुकूलित मूल्यांकन कार्य है, जिसका अर्थ है कि फ़ंक्शन को ऑप्टिमाइज़ करने की परिभाषा तय है, जबकि इसके लिए अल्फ़ाज़ेरो, लक्ष्य मूल्यांकन फ़ंक्शन को अतिरिक्त प्रशिक्षण (उदाहरण के लिए स्व-प्ले) के माध्यम से लगातार पुनर्परिभाषित किया जा रहा है? उत्तरार्द्ध को एक दृष्टिकोण से कहीं अधिक गतिशील बनाना।
  2. अंततः, स्टॉकफिश जैसा इंजन, अस्पष्ट रूप से, संभव चालों के पेड़ पर अपना मूल्यांकन कार्य लागू करता है, यह तय करते हुए कि कौन सी शाखाएं रखनी हैं और कौन सी को छोड़ना है, फिर एक गहरी कंक्रीट के माध्यम सेप्रत्येक शाखा का विश्लेषण, फिर से अपने मूल्यांकन समारोह के माध्यम से, यह पता लगाता है कि किस शाखा में सबसे अधिक मूल्य प्राप्त हुआ है, और यह मुख्य रूप से भिन्नता बन जाती है (बेशक इस बड़े पेड़ को कुशलतापूर्वक prune करने के लिए इस प्रक्रिया के आसपास कई अग्रिम तकनीकें हैं)। मतलब, प्रत्येक स्थिति के लिए, स्टॉकफिश को निर्णय लेने के लिए इस अत्यंत ठोस दिनचर्या को दोहराया जाना चाहिए। इसके विपरीत, मुझे लगता है कि अल्फ़ाज़ेरो कुछ अलग करता है, अर्थात्, यह किसी दिए गए स्थान पर संभावित चालों के पेड़ के ठोस विश्लेषण पर निर्भर नहीं करता है, इसके बजाय इसका मूल्यांकन कार्य अनिवार्य रूप से उस स्थिति के लिए एक मूल्य प्रदान करता है (जो कि सहज रूप से डालने के समान है। सभी अन्य पदों के अनुरूप में वर्तमान स्थिति जिसे इसके लिए प्रशिक्षित किया गया है), बिना ठोस प्रदर्शन किएस्टॉकफिश, या यहां तक ​​कि एक मानव खिलाड़ी के रूप में विश्लेषण। क्या यह अल्फ़ाज़ेरो या इसी तरह प्रशिक्षित मशीन लर्निंग इंजनों के कामकाज की एक अच्छी तस्वीर है?

  3. हम जानते हैं कि शतरंज के पदों का स्थान इतना बड़ा है कि इसमें सभी पदों का नमूना लेने का कोई भी प्रयास सैद्धांतिक रूप से पूरी तरह से व्यर्थ होगा (उदाहरण के लिए जटिलता), यह सुझाव देगा कि स्व-खेल के माध्यम से प्रशिक्षण की कोई भी राशि पर्याप्त नहीं होगी। सभी पदों का पता लगाया है, तो फिर स्व-खेल के माध्यम से अंतरिक्ष के पदों के एक छोटे से हिस्से को संभावित रूप से तलाशने के बावजूद अंतिम परिणाम कैसे अच्छा हो सकता है? खेलने में यहाँ क्या महत्वपूर्ण विचार है?

  4. मेरा अनुमान है कि, अल्फ़ाज़ेरो के पास किसी भी दिए गए पद की तुलना करने का एक बहुत ही इष्टतम तरीका है, भले ही नया हो, पहले से अपने प्रशिक्षण सेट में एक का दौरा करने के लिए, तुलना के करीब, अधिक वैध मूल्यांकन एक तुलना से आकर्षित कर सकता है। उदाहरण के लिए, जब यह गेम 5 में बीजी 5 चलाती है , तो इसे अपने प्रशिक्षण के दौरान एक समान संरचना का पता लगाना चाहिए, अर्थात यह पहचानने में सक्षम है कि यह स्थिति अनिवार्य रूप से इसके प्रशिक्षण में अध्ययन किए गए (संभवतः पूरी तरह से) अलग है, में मशीन लर्निंग के माध्यम से चेहरे की पहचान कैसे प्राप्त की जाती है, और इसके परिणामस्वरूप Bg5 सबसे अच्छी चाल होनी चाहिए, जैसा कि उस (या उन) अन्य समान स्थितियों में था। क्या यह बिल्कुल सही अनुमान है? मुझे नहीं पता कि यह तुलना कैसे हुई किया जाता है, निश्चित रूप से यह संभव नहीं है कि सभी प्रशिक्षित स्थिति को संग्रहीत करें और हर बार उनके माध्यम से पार्स करें।

यह केवल अल्फ़ाज़ेरो के कामकाज में इतनी अंतर्दृष्टि प्राप्त करने का एक प्रयास है और यह कैसे एक स्थिति को दिए गए निर्णय की बात आती है।

जवाबों:


18
  • अल्फ़ाज़ेरो खोज में एक चाल का चयन कैसे करता है?

यह कागज से बहुत स्पष्ट है।

प्रत्येक अनुकरण प्रत्येक राज्य सा चाल में चयन करके आगे बढ़ता है, कम यात्रा की गिनती, उच्च चाल की संभावना और उच्च स्तर के चयन के साथ ...

इसका क्या मतलब है? अल्फ़ाज़ेरो ने एक गहरे तंत्रिका नेटवर्क से प्रत्येक चाल (कागज में पृष्ठ 2 के अंत) के लिए संभावनाओं को प्रशिक्षित किया है। खोज के दौरान, यह उस संभावना के लिए आनुपातिक रूप से एक कदम उठाता है, और यह भी नोड्स है जिनकी गिनती कम है (यह सुनिश्चित करने के लिए कि नमूना स्थान का पता लगाया गया है)। यह कोई नई अवधारणा नहीं है, मोंटे कार्लो ट्री सर्च Google के अस्तित्व में आने से पहले साहित्य में रहा है।

------ (बहुत) किसी न किसी उदाहरण ------

हमारे पास एक स्थिति है, और हमारे पास दो कानूनी कदम हैं।

  • मूव 1 अच्छा और उचित है
  • मूव 2 आपके राजा को बिना किसी मुआवजे के खतरे में डालता है

कागज के अनुसार, एक प्रशिक्षित गहरा मॉडल संभावनाओं का अनुमान लगा सकता है (0.90, 0.10)। बता दें कि अल्फा कारेरो मोंटे कार्लो में 4 पुनरावृत्तियों का उपयोग करता है। पुनरावृत्तियों की तरह लग सकता है:

Iteration 1 : चाल 1 चुनें क्योंकि इसमें उच्चतम संभावना है। चाल 1 से एक अनुकरण करें। Iteration 2 : चाल 1 को चुनें क्योंकि इसमें उच्चतम संभावना है। चाल 1 से एक अनुकरण करें। Iteration 3 : चाल 1 चुनें क्योंकि इसमें उच्चतम संभावना है। चाल 1 से अनुकरण करें।

अब, हम पुनरावृत्ति 4 पर हैं। हालांकि चाल 1 में उच्च अनुमानित संभावना है, लेकिन चाल 2 को खोज नहीं किया गया है (कागज में "लो विज़िट काउंट"), अब अल्फाज़ेरो 2 को स्थानांतरित करेगा, और सिमुलेशन करेगा।

दोनों चालों पर विचार किया जाएगा, लेकिन अल्फाज़ेरो मूव 1 (अच्छी बात) पर अधिक कंप्यूटिंग संसाधन डाल देगा।

अल्फ़ाज़ेरो इसके बाद सबसे अच्छे परिणाम की उम्मीद के साथ कदम उठाएगा।

------------------ आपके सवाल: ------------------

क्या मूल्यांकन का वह कार्य नहीं है जो अल्फ़ाज़ेरो उपयोग करता है, मशीन सीखने के तरीकों से प्रशिक्षित होता है, अंत में सिर्फ एक और मूल्यांकन मूल्यांकन कार्य होता है?

प्रशिक्षित मूल्यांकन फ़ंक्शन एक गहन तंत्रिका नेटवर्क है, यह हेयुरिस्टिक नियमों का एक सेट नहीं है, जैसे आप स्टॉकफिश में देखते हैं। प्रशिक्षित नेटवर्क के बारे में कोई भी (Google टीम भी नहीं) पूरी तरह से समझता है, यह सिर्फ काम करता है। इसी तरह से NN आम तौर पर काम करता है।

जबकि अल्फ़ाज़ेरो के लिए, लक्ष्य मूल्यांकन फ़ंक्शन को लगातार लक्षित मूल्यांकन फ़ंक्शन के माध्यम से पुनर्परिभाषित किया जा रहा है और अतिरिक्त प्रशिक्षण के माध्यम से लगातार पुनर्परिभाषित किया जा रहा है।

अल्फाज़ेरो में मूल्यांकन फ़ंक्शन प्रशिक्षित न्यूरॉन्स (पूर्वाग्रह + वज़न) का एक सेट है। मापदंडों को प्रशिक्षित करने के लिए Google टीम ने बहुत शक्तिशाली मशीनों का उपयोग किया। आमतौर पर, आप जितने अधिक संसाधनों को एक गहन शिक्षण मॉडल के प्रशिक्षण में निवेश कर सकते हैं, उतने ही बेहतर पैरामीटर प्राप्त होंगे।

(2)।

स्टॉकफिश अल्फा-बीटा का उपयोग करता है, जबकि अल्फाज़ेरो मोंटे-कार्लो का उपयोग करता है। वे दो बहुत अलग एल्गोरिदम हैं। अल्फा-बीटा एल्गोरिथ्म एक निचले / ऊपरी बाउंड को मानता है, जबकि मोंटे-कार्लो जड़ से पत्ती तक सिमुलेशन बनाता है।

सभी पदों की खोज की है, तो फिर स्व-खेल के माध्यम से अंतरिक्ष के पदों के एक छोटे से हिस्से को संभावित रूप से पता लगाने के बावजूद अंतिम परिणाम कैसे अच्छा हो सकता है? खेलने के लिए यहां क्या महत्वपूर्ण विचार है?

Google ने दावा नहीं किया कि उन्होंने शतरंज को हल कर लिया है, न कि उनकी शक्तिशाली मशीनें संभवतः सभी शतरंज पदों की गणना कर सकती हैं। लेकिन उन्हें ऐसा नहीं करना पड़ा ... यह मशीन सीखने का बिंदु है, प्रशिक्षण सेट से मॉडल "सीखता है"। इस मामले में, प्रशिक्षण सेट स्व-खेल से आता है। प्रमुख विचार यह है कि जितनी जल्दी हो सके और जल्दी से अच्छी गुणवत्ता वाले गेम खेलें।

उदाहरण के लिए, जब इसने गेम 5 में Bg5 की चाल खेली, तो इसने अपने प्रशिक्षण के दौरान एक समान संरचना का पता लगाया होगा,

मुझे नहीं लगता कि अल्फाज़ेरो ने प्रशिक्षण खेलों में ठीक उसी स्थिति का सामना किया। मुझे लगता है कि मोंटे-कार्लो का एक त्वरित विचार एक अच्छा विचार है:

https://chessprogramming.wikispaces.com/Monte-Carlo+Tree+Search

अल्फ़ाज़ेरो पर्याप्त गहराई तक पहुंचकर चाल को चलाने में सक्षम था। एल्गोरिथ्म प्रत्येक चाल के लिए जीतने की संभावना की संभावना का अनुमान लगाता है, जाहिर है, इस कदम Bg5 ने उच्चतम प्रत्याशित संभावना दी।

आप ऐसा सोच सकते हैं, अल्फ़ागो इतनी अच्छी तरह से खोज करने में सक्षम था कि उसने देखा कि जीतने की संभावना बीजी 5 के बाद सबसे अधिक है, जबकि स्टॉकफिश ने इस कदम को गंभीरता से नहीं माना (और इस तरह हार गई)।


2
"मोंटे कार्लो ट्री खोजें साहित्य में किया गया है इससे पहले कि Google अस्तित्व में" मैं केवल बारे में 2006 तक MCTS वापस ट्रेस कर सकते हैं
CodesInChaos

2
@CodesInChaos MCTS कोई नई तकनीक नहीं है। Google ने निश्चित रूप से मोंटे कार्लो का आविष्कार नहीं किया था।
स्मॉलचेयर

4
ब्रुगमैन 1993 स्पष्ट रूप से केवल एम.सी. एमसी गो देव। (2003) एमसी और पेड़ों को जोड़ती है, लेकिन एक आदिम तरीके से। चांग (2005) बहुत करीब है, लेकिन एक अलग संदर्भ में और मुझे लगता है कि अभी भी आकलन के विस्तार और प्रसार के लिए नोड की उचित पसंद का अभाव है। एमसीटीएस रेमी कूलॉम (2006) में कुशल चयनात्मकता और बैकअप ऑपरेटर एक उचित एमसीटीएस है, जहां तक ​​मैं बता सकता हूं, पहला।
कोडइन्कॉउंस

1
@SmallChess आपके उत्तर के कुछ हिस्सों में विरोधाभासी प्रतीत होता है: "अब अल्फ़ाज़ेरो चाल 2 उठाएगा, और अनुकरण करेगा। दोनों चालों पर विचार किया जाएगा, लेकिन अल्फ़ाज़ेरो चाल 1 (अच्छी बात) पर अधिक कंप्यूटिंग संसाधनों को लगाएगा।" इस कथन का खंडन करता है कि प्रत्येक राज्य में प्रत्येक सिमुलेशन का चयन कम आय के साथ होता है ... कम उदाहरण के रूप में, आपके उदाहरण में, यह 1 के बजाय 2 होगा। ईमानदार होना कागज के लिए उपयोगी जानकारी का कोई टुकड़ा नहीं है समझ, जैसा कि वे प्रयोग को पुन: पेश करने का कोई रास्ता नहीं दिखाते हैं या वे नेटवर्क को प्रशिक्षित करने के वास्तविक तरीके पर कोई अंतर्दृष्टि नहीं देते हैं।
gented

1
वे जो करते हैं वह अनिवार्य रूप से "हमने एल्गोरिथ्म एक्स का इस्तेमाल किया था और यह काम करता है" - जो स्वयं विधियों पर कोई समझ नहीं करने के लिए प्रदान करता है, इसलिए मैं खुद ही यह पता लगाने की कोशिश करने के लिए कागज पर बहुत अधिक ध्यान केंद्रित नहीं करूंगा कि यह वास्तव में क्या करता है।
gented

0

मुझे लगता है कि मेरा सवाल यह है कि तंत्रिका जाल कैसे सीखता है "एक स्थिति में क्या करना है इसका सामना नहीं किया है। वास्तविक AZ का कहना है कि प्रशिक्षित तंत्रिका जाल से पूर्वाग्रह + भार का उपयोग करके एक MCTS निष्पादित करता है, यह सिर्फ एक कदम पीछे ले जाता है कि तंत्रिका जाल इन मूल्यों की गणना कैसे करता है। यदि यह बिना किसी मानव ज्ञान के साथ यादृच्छिक आत्म-नाटक के माध्यम से होता है, तो यह कैसे तय करता है कि किसी स्थिति को कैसे वजन करना है जो उसने कभी नहीं देखा है?


1
मुझे लगता है कि मैं आपको उत्तर देने में सक्षम हो सकता हूं, लेकिन यहां नहीं। कृपया एक नया प्रश्न शुरू करें।
स्मॉलचेयर

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.