अल्फ़ागो ज़ीरो का विलय हुआ तंत्रिका नेटवर्क दो अलग तंत्रिका नेटवर्क की तुलना में अधिक कुशल क्यों है?


10

अल्फ़ागो ज़ीरो में अपने पूर्ववर्तियों की तुलना में कई सुधार शामिल हैं। इस धोखा पत्र में अल्फा गो ज़ीरो के वास्तुशिल्प विवरण को देखा जा सकता है ।

उन सुधारों में से एक एकल तंत्रिका नेटवर्क का उपयोग कर रहा है जो एक ही समय में चाल संभावनाओं और राज्य मूल्य की गणना करता है, जबकि पुराने संस्करणों में दो अलग तंत्रिका नेटवर्क का उपयोग किया जाता है। यह दिखाया गया है कि मर्ज किए गए तंत्रिका नेटवर्क कागज के अनुसार अधिक कुशल हैं:

यह दो के बजाय एक तंत्रिका नेटवर्क का उपयोग करता है। प्रत्येक स्थिति से गेम के विजेता की भविष्यवाणी करने के लिए अगले चरण को खेलने के लिए और "वैल्यू नेटवर्क" का चयन करने के लिए अल्फा गो के पहले संस्करणों ने एक "नीति नेटवर्क" का उपयोग किया। इन्हें अल्फ़ागो ज़ीरो में संयोजित किया गया है, जिससे इसे प्रशिक्षित और अधिक कुशलता से मूल्यांकन किया जा सके।

यह मेरे लिए सहज ज्ञान युक्त लगता है, क्योंकि एक सॉफ्टवेयर डिजाइन के नजरिए से यह चिंताओं के सिद्धांत अलगाव का उल्लंघन करता है । इसलिए मैं सोच रहा हूं, यह मर्ज फायदेमंद क्यों साबित हुआ है।

क्या यह तकनीक - दक्षता में सुधार के लिए एक एकल तंत्रिका नेटवर्क में विभिन्न कार्यों का विलय कर सकती है - सामान्य रूप से अन्य तंत्रिका नेटवर्क पर लागू किया जा सकता है या इसके लिए काम करने के लिए कुछ शर्तों की आवश्यकता होती है?

जवाबों:


6

यह मर्ज फायदेमंद क्यों साबित हुआ है?

यदि आप साझा मूल्य / नीति नेटवर्क के बारे में सोचते हैं कि एक साझा घटक (अवशिष्ट नेटवर्क परतों) से मिलकर एक मूल्य और नीति घटक के साथ शीर्ष पर है, तो अलग होने की चिंता के बजाय यह अधिक समझ में आता है।

अंतर्निहित आधार यह है कि नेटवर्क का साझा हिस्सा (रेसनेट) इनपुट के उच्च-स्तरीय सामान्यीकरण (खेल को आगे बढ़ाता है) प्रदान करता है जो कि उथले मूल्य और नीति नेटवर्क दोनों के लिए एक अच्छा इनपुट प्रतिनिधित्व है।

जब ऐसा होता है, तो हम एक साझा किए गए रेसनेट को प्रशिक्षित करके कम्प्यूटेशनल लोड को बहुत कम कर सकते हैं और मूल्य और नीति के लिए दो रेसनेट को प्रशिक्षित करने की तुलना में दो सरल नेटवर्क के लिए इसका उपयोग कर सकते हैं। उनके मामले में, दोनों को एक साथ प्रशिक्षित करना भी नियमितीकरण में सुधार करता है और इस प्रकार एक अधिक मजबूत, सामान्य प्रतिनिधित्व बनाता है।

विशेष रूप से, सिल्वर एट अल द्वारा अल्फा गो ज़ीरो पेपर , मानव ज्ञान के बिना जाने के खेल को माहिर , कहता है कि:

एक एकल नेटवर्क में एक साथ नीति और मूल्य के संयोजन ने चाल भविष्यवाणी सटीकता को थोड़ा कम कर दिया, लेकिन मूल्य त्रुटि को कम कर दिया और लगभग 600 ईलो द्वारा अल्फ़ागो में प्रदर्शन को बढ़ाया। यह आंशिक रूप से कम्प्यूटेशनल दक्षता में सुधार के कारण है, लेकिन अधिक महत्वपूर्ण बात यह है कि दोहरे उद्देश्य नेटवर्क को एक सामान्य प्रतिनिधित्व के लिए नियमित करता है जो कई उपयोग मामलों का समर्थन करता है।

क्या यह तकनीक सामान्य या केवल विशेष मामलों में ही लागू की जा सकती है?

सॉफ़्टवेयर पुस्तकालयों में आम घटकों की तरह, यह केवल तभी समझ में आता है जब आप एक साझा प्रतिनिधित्व से लाभ को हल करने की कोशिश कर रहे हैं।

आप इसका उपयोग कर सकते हैं यदि आप समान कार्यों के लिए क्लासिफायर का प्रशिक्षण ले रहे हैं, या छोटे डेटा के साथ एक नया कार्य का प्रशिक्षण ले रहे हैं जहां आपके पास पहले से ही एक बड़ा, समान डेटासेट पर प्रशिक्षित क्लासिफायर है ।

गो के बाहर, यह अक्सर छवि मान्यता में उपयोग किया जाता है। डीप प्री-प्रशिक्षित नेटवर्क जैसे कि इमेजनेट ILSVRC प्रतियोगिताओं से आमतौर पर शुरुआती बिंदु के रूप में उपयोग किया जाता है। वे एक लाख छवियों पर प्रशिक्षित किए गए क्लासिफायर हैं (सप्ताह के लिए!)।

फिर, मान लें कि आप साइकिल के पसंदीदा ब्रांड को पहचानने के लिए एक नेटवर्क बनाना चाहते हैं, आप इमेजनेट पर प्रशिक्षित सामान्य छवि-पहचान पाइपलाइन से शुरू करते हैं, अंतिम परतों को काटते हैं जो वास्तविक वर्गीकरण करते हैं ("यह एक बॉर्डर कोली है") और जोड़ें एक छोटा सा नया क्लासिफायर, केवल उन साइकिलों को लेने के लिए जिन्हें आप परवाह करते हैं।

चूंकि पूर्व-प्रशिक्षित क्लासिफायर पहले से ही उच्च-स्तरीय छवि अवधारणाएं प्रदान करता है जो छवि मान्यता के लिए अच्छे बिल्डिंग ब्लॉक हैं (यह 200 श्रेणियों को वर्गीकृत करता है), यह आपको बहुत अधिक प्रशिक्षण देता है और बहुत मजबूत क्लासिफायरियर बनाता है।

बेशक, ऐसे कई मामले हैं जहां समस्याओं का उपयोगी साझा प्रतिनिधित्व नहीं है और इस प्रकार संयुक्त नेटवर्क से कोई लाभ नहीं है। फिर भी, यह सही स्थितियों में एक उपयोगी उपकरण है।

इसके बारे में अधिक जानने के लिए ट्रांसफर लर्निंग या मल्टी-टास्क लर्निंग देखें


यदि कोई इस तंत्रिका नेटवर्क की वास्तुकला का विश्लेषण करने के लिए सॉफ्टवेयर इंजीनियरिंग सिद्धांतों का उपयोग करना चाहता है, तो मैं यह भी बताना चाहूंगा कि अवशिष्ट ब्लॉक नेटवर्क जिस पर मूल्य और नीति प्रमुख DRY सिद्धांत का सम्मान करते हैं। पाइप लाइन (मान और नीति प्रमुखों) में अन्य घटकों पर इस डेटा को पारित करने से पहले डेटा को प्रीप्रोसेस करने के लिए एक ही घटक (अवशिष्ट ब्लॉक नेटवर्क) के आधार पर, वे गारंटी देते हैं कि प्रत्येक मूल इनपुट के समान प्रतिनिधित्व को संसाधित करेगा। दो अलग-अलग नेटवर्क के साथ इस प्रसंस्करण की नकल करना समय के साथ विचलन की गारंटी देता है।
सादकात्सू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.