अभी हाल ही में यह खबर सामने आई थी कि अल्फाबेट की डीपमाइंड रिसर्च टीम ने शोगी और शतरंज खेलने के लिए अपने मशीन लर्निंग इंजन को बढ़ाया है। जाहिर तौर पर, केवल कुछ घंटों के आत्म-अध्ययन के बाद, जिसका अर्थ है कि केवल खुद के खिलाफ खेलना खेल के नियमों को देखते हुए, शतरंज में इसका प्रदर्शन पहले से ही मौजूदा शीर्ष इंजनों जैसे स्टॉकफिश 8 से आगे निकल गया है।। मुझे व्यक्तिगत रूप से अभी तक पता नहीं है कि माचिस की तासीर किस हालत में थी, क्योंकि स्टॉकफिश प्रदर्शन करने के लिए किस स्थिति में थी, क्योंकि अगर गणना के समय सीमित इंजन बहुत खराब प्रदर्शन करने में सक्षम हैं। किसी भी मामले में, यह एक बहुत ही प्रभावशाली उपलब्धि है, क्योंकि भले ही यह पता चला है कि स्टॉकफिश को और अधिक बेहतर तरीके से स्थापित किया जा सकता है, कुछ अतिरिक्त घंटों के प्रशिक्षण के साथ, अल्फाज़ेरो फिर से खेल के स्तर को पार कर जाएगा, जिसका अर्थ है अल्फ़ाज़ेरो का मौलिक रूप से किसी भी वर्तमान से अधिक मजबूत होना। मूल्यांकन मूल्यांकन कार्यों के आधार पर मानक शतरंज इंजन।
अब इस खबर के प्रकाश में, यह बहुत अच्छा होगा अगर कोई मशीन के कामकाज में मुख्य अंतरों पर विस्तृत रूप से शतरंज इंजन सीख सकता है जो कि मानक इंजनों की तुलना में हम सभी उपयोग करने के आदी हैं। अधिक संक्षेप में:
- क्या मूल्यांकन का वह कार्य नहीं है जो अल्फ़ाज़ेरो उपयोग करता है, मशीन सीखने के तरीकों से प्रशिक्षित होता है, अंत में सिर्फ एक और अनुमानी मूल्यांकन समारोह? यदि हां, तो यह कहना उचित होगा कि दो इंजनों के मूल्यांकन कार्यों के बीच मूलभूत अंतर, तथ्य यह है कि स्टॉकफिश के पास मनुष्यों द्वारा अनुकूलित मूल्यांकन कार्य है, जिसका अर्थ है कि फ़ंक्शन को ऑप्टिमाइज़ करने की परिभाषा तय है, जबकि इसके लिए अल्फ़ाज़ेरो, लक्ष्य मूल्यांकन फ़ंक्शन को अतिरिक्त प्रशिक्षण (उदाहरण के लिए स्व-प्ले) के माध्यम से लगातार पुनर्परिभाषित किया जा रहा है? उत्तरार्द्ध को एक दृष्टिकोण से कहीं अधिक गतिशील बनाना।
अंततः, स्टॉकफिश जैसा इंजन, अस्पष्ट रूप से, संभव चालों के पेड़ पर अपना मूल्यांकन कार्य लागू करता है, यह तय करते हुए कि कौन सी शाखाएं रखनी हैं और कौन सी को छोड़ना है, फिर एक गहरी कंक्रीट के माध्यम सेप्रत्येक शाखा का विश्लेषण, फिर से अपने मूल्यांकन समारोह के माध्यम से, यह पता लगाता है कि किस शाखा में सबसे अधिक मूल्य प्राप्त हुआ है, और यह मुख्य रूप से भिन्नता बन जाती है (बेशक इस बड़े पेड़ को कुशलतापूर्वक prune करने के लिए इस प्रक्रिया के आसपास कई अग्रिम तकनीकें हैं)। मतलब, प्रत्येक स्थिति के लिए, स्टॉकफिश को निर्णय लेने के लिए इस अत्यंत ठोस दिनचर्या को दोहराया जाना चाहिए। इसके विपरीत, मुझे लगता है कि अल्फ़ाज़ेरो कुछ अलग करता है, अर्थात्, यह किसी दिए गए स्थान पर संभावित चालों के पेड़ के ठोस विश्लेषण पर निर्भर नहीं करता है, इसके बजाय इसका मूल्यांकन कार्य अनिवार्य रूप से उस स्थिति के लिए एक मूल्य प्रदान करता है (जो कि सहज रूप से डालने के समान है। सभी अन्य पदों के अनुरूप में वर्तमान स्थिति जिसे इसके लिए प्रशिक्षित किया गया है), बिना ठोस प्रदर्शन किएस्टॉकफिश, या यहां तक कि एक मानव खिलाड़ी के रूप में विश्लेषण। क्या यह अल्फ़ाज़ेरो या इसी तरह प्रशिक्षित मशीन लर्निंग इंजनों के कामकाज की एक अच्छी तस्वीर है?
हम जानते हैं कि शतरंज के पदों का स्थान इतना बड़ा है कि इसमें सभी पदों का नमूना लेने का कोई भी प्रयास सैद्धांतिक रूप से पूरी तरह से व्यर्थ होगा (उदाहरण के लिए जटिलता), यह सुझाव देगा कि स्व-खेल के माध्यम से प्रशिक्षण की कोई भी राशि पर्याप्त नहीं होगी। सभी पदों का पता लगाया है, तो फिर स्व-खेल के माध्यम से अंतरिक्ष के पदों के एक छोटे से हिस्से को संभावित रूप से तलाशने के बावजूद अंतिम परिणाम कैसे अच्छा हो सकता है? खेलने में यहाँ क्या महत्वपूर्ण विचार है?
मेरा अनुमान है कि, अल्फ़ाज़ेरो के पास किसी भी दिए गए पद की तुलना करने का एक बहुत ही इष्टतम तरीका है, भले ही नया हो, पहले से अपने प्रशिक्षण सेट में एक का दौरा करने के लिए, तुलना के करीब, अधिक वैध मूल्यांकन एक तुलना से आकर्षित कर सकता है। उदाहरण के लिए, जब यह गेम 5 में बीजी 5 चलाती है , तो इसे अपने प्रशिक्षण के दौरान एक समान संरचना का पता लगाना चाहिए, अर्थात यह पहचानने में सक्षम है कि यह स्थिति अनिवार्य रूप से इसके प्रशिक्षण में अध्ययन किए गए (संभवतः पूरी तरह से) अलग है, में मशीन लर्निंग के माध्यम से चेहरे की पहचान कैसे प्राप्त की जाती है, और इसके परिणामस्वरूप Bg5 सबसे अच्छी चाल होनी चाहिए, जैसा कि उस (या उन) अन्य समान स्थितियों में था। क्या यह बिल्कुल सही अनुमान है? मुझे नहीं पता कि यह तुलना कैसे हुई किया जाता है, निश्चित रूप से यह संभव नहीं है कि सभी प्रशिक्षित स्थिति को संग्रहीत करें और हर बार उनके माध्यम से पार्स करें।
यह केवल अल्फ़ाज़ेरो के कामकाज में इतनी अंतर्दृष्टि प्राप्त करने का एक प्रयास है और यह कैसे एक स्थिति को दिए गए निर्णय की बात आती है।