मैं जैविक और कृत्रिम तंत्रिका नेटवर्क के बीच मजबूत समानता की उम्मीद के खिलाफ चेतावनी देता हूं। मुझे लगता है कि "न्यूरल नेटवर्क" नाम थोड़ा खतरनाक है, क्योंकि यह लोगों को यह उम्मीद करता है कि न्यूरोलॉजिकल प्रक्रियाएं और मशीन सीखना समान होना चाहिए। जैविक और कृत्रिम तंत्रिका नेटवर्क के बीच अंतर समानताओं को पछाड़ते हैं।
उदाहरण के तौर पर यह कैसे भयावह हो सकता है, आप तर्क को मूल पोस्ट में बदल सकते हैं। आप एक दोपहर में कारों को पहचानने के लिए सीखने के लिए एक तंत्रिका नेटवर्क को प्रशिक्षित कर सकते हैं, बशर्ते आपके पास काफी तेज कंप्यूटर और प्रशिक्षण डेटा की कुछ मात्रा हो। आप इसे एक द्विआधारी कार्य (कार / कार नहीं) या एक बहु-स्तरीय कार्य (कार / ट्राम / बाइक / हवाई जहाज / नाव) बना सकते हैं और फिर भी उच्च स्तर की सफलता के लिए आश्वस्त हो सकते हैं।
इसके विपरीत, मुझे उम्मीद नहीं होगी कि एक बच्चा दिन में एक कार लेने में सक्षम होगा - या सप्ताह भी - इसके जन्म के बाद भी, इसके बाद भी "इतने सारे प्रशिक्षण उदाहरण" देखे हैं। दो वर्षीय और एक शिशु के बीच स्पष्ट रूप से कुछ अलग है जो सीखने की क्षमता में अंतर के लिए जिम्मेदार है, जबकि एक वेनिला छवि वर्गीकरण तंत्रिका नेटवर्क "जन्म" के तुरंत बाद वस्तु वर्गीकरण लेने में पूरी तरह से सक्षम है । मुझे लगता है कि दो महत्वपूर्ण अंतर हैं: (1) उपलब्ध प्रशिक्षण डेटा के सापेक्ष मात्रा और (2) प्रचुर प्रशिक्षण डेटा के कारण समय के साथ विकसित होने वाला एक स्व-शिक्षण तंत्र।
मूल पोस्ट दो सवालों को उजागर करती है। सवाल का शीर्षक और निकाय पूछते हैं कि तंत्रिका नेटवर्क को "इतने सारे उदाहरणों की आवश्यकता क्यों है।" एक बच्चे के अनुभव के सापेक्ष, सामान्य छवि बेंचमार्क का उपयोग करके प्रशिक्षित तंत्रिका नेटवर्क में तुलनात्मक रूप से बहुत कम डेटा होता है।
मैं शीर्षक में प्रश्न को फिर से उद्धृत करूंगा
"एक सामान्य छवि बेंचमार्क के लिए एक न्यूरल नेटवर्क प्रशिक्षण कैसे एक बच्चे के सीखने के अनुभव की तुलना और इसके विपरीत है?"
तुलना के लिए मैं CIFAR-10 डेटा पर विचार करूंगा क्योंकि यह एक सामान्य छवि बेंचमार्क है। लेबल वाला हिस्सा प्रति वर्ग 6000 छवियों के साथ छवियों के 10 वर्गों से बना है। प्रत्येक छवि 32x32 पिक्सेल है। यदि आप किसी तरह CIFAR-10 से लेबल की गई छवियों को स्टैक्ड करते हैं और एक मानक 48 एफपीएस वीडियो बनाते हैं, तो आपके पास लगभग 20 मिनट का फुटेज होगा।
2 साल का एक बच्चा जो दुनिया को रोजाना 12 घंटे देखता है, उसके पास वयस्कों की प्रतिक्रिया (लेबल) सहित दुनिया की प्रत्यक्ष टिप्पणियों के लगभग 263000 मिनट (4000 घंटे से अधिक) हैं। (ये सिर्फ बॉलपार्क के आंकड़े हैं - मुझे नहीं पता कि दुनिया को देखने के लिए एक ठेठ दो साल के बच्चे ने कितने मिनट बिताए हैं।) इसके अलावा, बच्चे को 10 कक्षाओं से परे कई वस्तुओं के संपर्क में आना होगा, जिनमें CIFAR भी शामिल है- 10।
इसलिए खेल में कुछ चीजें हैं। एक यह है कि बच्चे के पास समग्र डेटा के लिए जोखिम है और CIFAR-10 मॉडल की तुलना में डेटा का अधिक विविध स्रोत है। डेटा विविधता और डेटा की मात्रा सामान्य रूप से मजबूत मॉडल के लिए पूर्व-आवश्यकता के रूप में अच्छी तरह से पहचानी जाती है। इस प्रकाश में, यह आश्चर्य की बात नहीं है कि एक तंत्रिका नेटवर्क बच्चे की तुलना में इस कार्य में बदतर है, क्योंकि सीआईएफएआर -10 पर प्रशिक्षित एक तंत्रिका नेटवर्क दो साल की तुलना में प्रशिक्षण डेटा के लिए सकारात्मक रूप से भूखा है। एक बच्चे के लिए उपलब्ध छवि रिज़ॉल्यूशन 32x32 CIFAR-10 छवियों से बेहतर है, इसलिए बच्चा वस्तुओं के बारीक विवरण के बारे में जानकारी जानने में सक्षम है।
CIFAR-10 से दो साल पुरानी तुलना सही नहीं है क्योंकि CIFAR-10 मॉडल को संभवतः एक ही स्थिर चित्रों के साथ कई पास के साथ प्रशिक्षित किया जाएगा, जबकि बच्चा द्विनेत्री दृष्टि का उपयोग करके देखेगा कि वस्तुओं को तीन में कैसे व्यवस्थित किया जाता है -एक ही वस्तुओं पर अलग-अलग प्रकाश व्यवस्था की स्थिति और दृष्टिकोण के साथ गतिशील दुनिया।
ओपी के बच्चे के बारे में एक किस्सा एक दूसरे सवाल का है,
"तंत्रिका नेटवर्क स्व-शिक्षण कैसे बन सकता है?"
एक बच्चे को स्व-शिक्षण के लिए कुछ प्रतिभाओं के साथ संपन्न किया जाता है, ताकि समय के साथ वस्तुओं की नई श्रेणियों को खरोंच से शुरू किए बिना जोड़ा जा सके।
ट्रांसफर-लर्निंग के बारे में ओपी की टिप्पणी मशीन सीखने के संदर्भ में एक प्रकार का मॉडल अनुकूलन है।
टिप्पणियों में, अन्य उपयोगकर्ताओं ने बताया है कि एक- और कुछ-शॉट लर्निंग * एक और मशीन लर्निंग रिसर्च क्षेत्र है।
इसके अतिरिक्त, सुदृढीकरण-शिक्षण एक अलग दृष्टिकोण से स्व-शिक्षण मॉडल को संबोधित करता है, अनिवार्य रूप से रोबोट को विशिष्ट समस्याओं (जैसे शतरंज खेलने) के समाधान के लिए इष्टतम रणनीति खोजने के लिए परीक्षण और त्रुटि प्रयोग करने की अनुमति देता है।
यह शायद सच है कि इन तीनों मशीन सीखने के प्रतिमानों को सुधारने के लिए जर्मन हैं जो मशीनों को नए कंप्यूटर विज़न कार्यों के लिए अनुकूल बनाते हैं। नए कार्यों के लिए मशीन सीखने के मॉडल को जल्दी से अपनाना अनुसंधान का एक सक्रिय क्षेत्र है। हालाँकि, क्योंकि इन परियोजनाओं के व्यावहारिक लक्ष्य (मैलवेयर के नए उदाहरणों को पहचानते हैं, पासपोर्ट फ़ोटो में इंपोस्टर्स को पहचानते हैं, इंटरनेट को अनुक्रमित करते हैं) और सफलता के मापदंड दुनिया के बारे में सीखने वाले बच्चे के लक्ष्यों से भिन्न होते हैं, और यह तथ्य कि एक किया जाता है एक कंप्यूटर जो गणित का उपयोग कर रहा है और दूसरा रसायन विज्ञान का उपयोग करके कार्बनिक पदार्थों में किया जाता है, दोनों के बीच सीधी तुलना नहीं की जाएगी।
एक तरफ के रूप में, यह अध्ययन करना दिलचस्प होगा कि CIFAR-10 समस्या को कैसे फ्लिप करें और प्रत्येक के 10 उदाहरणों से 6000 वस्तुओं को पहचानने के लिए एक तंत्रिका नेटवर्क को प्रशिक्षित करें। लेकिन यहां तक कि यह 2-वर्षीय की तुलना में उचित नहीं होगा, क्योंकि प्रशिक्षण डेटा की कुल मात्रा, विविधता और संकल्प में अभी भी एक बड़ी विसंगति होगी।
* हमारे पास वर्तमान में एक-शॉट सीखने या कुछ-शॉट सीखने के लिए कोई टैग नहीं है।