यह मर्ज फायदेमंद क्यों साबित हुआ है?
यदि आप साझा मूल्य / नीति नेटवर्क के बारे में सोचते हैं कि एक साझा घटक (अवशिष्ट नेटवर्क परतों) से मिलकर एक मूल्य और नीति घटक के साथ शीर्ष पर है, तो अलग होने की चिंता के बजाय यह अधिक समझ में आता है।
अंतर्निहित आधार यह है कि नेटवर्क का साझा हिस्सा (रेसनेट) इनपुट के उच्च-स्तरीय सामान्यीकरण (खेल को आगे बढ़ाता है) प्रदान करता है जो कि उथले मूल्य और नीति नेटवर्क दोनों के लिए एक अच्छा इनपुट प्रतिनिधित्व है।
जब ऐसा होता है, तो हम एक साझा किए गए रेसनेट को प्रशिक्षित करके कम्प्यूटेशनल लोड को बहुत कम कर सकते हैं और मूल्य और नीति के लिए दो रेसनेट को प्रशिक्षित करने की तुलना में दो सरल नेटवर्क के लिए इसका उपयोग कर सकते हैं। उनके मामले में, दोनों को एक साथ प्रशिक्षित करना भी नियमितीकरण में सुधार करता है और इस प्रकार एक अधिक मजबूत, सामान्य प्रतिनिधित्व बनाता है।
विशेष रूप से, सिल्वर एट अल द्वारा अल्फा गो ज़ीरो पेपर । , मानव ज्ञान के बिना जाने के खेल को माहिर , कहता है कि:
एक एकल नेटवर्क में एक साथ नीति और मूल्य के संयोजन ने चाल भविष्यवाणी सटीकता को थोड़ा कम कर दिया, लेकिन मूल्य त्रुटि को कम कर दिया और लगभग 600 ईलो द्वारा अल्फ़ागो में प्रदर्शन को बढ़ाया। यह आंशिक रूप से कम्प्यूटेशनल दक्षता में सुधार के कारण है, लेकिन अधिक महत्वपूर्ण बात यह है कि दोहरे उद्देश्य नेटवर्क को एक सामान्य प्रतिनिधित्व के लिए नियमित करता है जो कई उपयोग मामलों का समर्थन करता है।
क्या यह तकनीक सामान्य या केवल विशेष मामलों में ही लागू की जा सकती है?
सॉफ़्टवेयर पुस्तकालयों में आम घटकों की तरह, यह केवल तभी समझ में आता है जब आप एक साझा प्रतिनिधित्व से लाभ को हल करने की कोशिश कर रहे हैं।
आप इसका उपयोग कर सकते हैं यदि आप समान कार्यों के लिए क्लासिफायर का प्रशिक्षण ले रहे हैं, या छोटे डेटा के साथ एक नया कार्य का प्रशिक्षण ले रहे हैं जहां आपके पास पहले से ही एक बड़ा, समान डेटासेट पर प्रशिक्षित क्लासिफायर है ।
गो के बाहर, यह अक्सर छवि मान्यता में उपयोग किया जाता है। डीप प्री-प्रशिक्षित नेटवर्क जैसे कि इमेजनेट ILSVRC प्रतियोगिताओं से आमतौर पर शुरुआती बिंदु के रूप में उपयोग किया जाता है। वे एक लाख छवियों पर प्रशिक्षित किए गए क्लासिफायर हैं (सप्ताह के लिए!)।
फिर, मान लें कि आप साइकिल के पसंदीदा ब्रांड को पहचानने के लिए एक नेटवर्क बनाना चाहते हैं, आप इमेजनेट पर प्रशिक्षित सामान्य छवि-पहचान पाइपलाइन से शुरू करते हैं, अंतिम परतों को काटते हैं जो वास्तविक वर्गीकरण करते हैं ("यह एक बॉर्डर कोली है") और जोड़ें एक छोटा सा नया क्लासिफायर, केवल उन साइकिलों को लेने के लिए जिन्हें आप परवाह करते हैं।
चूंकि पूर्व-प्रशिक्षित क्लासिफायर पहले से ही उच्च-स्तरीय छवि अवधारणाएं प्रदान करता है जो छवि मान्यता के लिए अच्छे बिल्डिंग ब्लॉक हैं (यह 200 श्रेणियों को वर्गीकृत करता है), यह आपको बहुत अधिक प्रशिक्षण देता है और बहुत मजबूत क्लासिफायरियर बनाता है।
बेशक, ऐसे कई मामले हैं जहां समस्याओं का उपयोगी साझा प्रतिनिधित्व नहीं है और इस प्रकार संयुक्त नेटवर्क से कोई लाभ नहीं है। फिर भी, यह सही स्थितियों में एक उपयोगी उपकरण है।
इसके बारे में अधिक जानने के लिए ट्रांसफर लर्निंग या मल्टी-टास्क लर्निंग देखें ।