तंत्रिका नेटवर्क को प्रदर्शन करने के लिए इतने प्रशिक्षण उदाहरणों की आवश्यकता क्यों है?


64

2 वर्ष की आयु के एक मानव बच्चे को रंग, मेक आदि की उचित सटीकता के साथ पहचान करने में सक्षम होने के लिए कार के लगभग 5 उदाहरणों की आवश्यकता होती है। जब मेरा बेटा 2 वर्ष का था, तो उसने ट्राम और ट्रेनों की पहचान करने में सक्षम था, भले ही उसने देखा था बस थोड़ा सा। चूंकि वह आमतौर पर एक-दूसरे के साथ भ्रमित कर रहे थे, जाहिर तौर पर उनके तंत्रिका नेटवर्क को पर्याप्त प्रशिक्षित नहीं किया गया था, लेकिन फिर भी।

ऐसा क्या है कि कृत्रिम तंत्रिका नेटवर्क गायब हैं जो उन्हें जल्दी सीखने में सक्षम होने से रोकते हैं? क्या स्थानांतरण एक उत्तर सीखना है?


23
हाथी कारों से बेहतर उदाहरण हो सकता है। जैसा कि दूसरों ने उल्लेख किया है, एक बच्चे ने लेबल सुनने से पहले कई कारों को देखा होगा , इसलिए यदि उनका दिमाग पहले से ही "प्राकृतिक प्रकार" को परिभाषित करता है, तो उसके पास अब एक के लिए एक लेबल है। हालांकि, एक पश्चिमी बच्चा निर्विवाद रूप से केवल कुछ आंकड़ों के आधार पर एक अच्छा हाथी-वर्गीकरण प्रणाली विकसित करता है।
JG

70
आपको क्या लगता है कि एक मानव बच्चे का मस्तिष्क तंत्रिका नेटवर्क की तरह काम करता है?
पॉल वासिल्वेस्की

16
एक एनएन को कार की एक छवि दिखाई जा सकती है। आपके बच्चे को विभिन्न प्रकार की कार के लिए अलग-अलग दृष्टिकोण से पूर्ण 3 डी फिल्म मिलती है। आपके बच्चे के भी कार से अलग होने के समान उदाहरण हैं। उदाहरण के लिए, उनके बच्चे के घुमक्कड़, खिलौने आदि, उनके बिना, मुझे लगता है कि आपके बच्चे को अधिक उदाहरणों की आवश्यकता होगी।
२०:४६

20
@ कृत्रिम कृत्रिम नेटवर्क के अर्थ में? शायद ऩही।
फायरबग

28
"साल की उम्र में एक मानव बच्चे को एक कार के 5 उदाहरणों लगभग 2 की जरूरत है उचित सटीकता के साथ यह पहचान करने के लिए सक्षम होने के लिए" इस तरह के एक बच्चे को चीजें हैं जो के साथ अनुभव के दो पूर्ण वर्ष किया गया है नहीं कर रहे हैं कारें। मैं निश्चित हूं कि एक महत्वपूर्ण भूमिका निभाता हूं।
दर्थफेनेक

जवाबों:


101

मैं जैविक और कृत्रिम तंत्रिका नेटवर्क के बीच मजबूत समानता की उम्मीद के खिलाफ चेतावनी देता हूं। मुझे लगता है कि "न्यूरल नेटवर्क" नाम थोड़ा खतरनाक है, क्योंकि यह लोगों को यह उम्मीद करता है कि न्यूरोलॉजिकल प्रक्रियाएं और मशीन सीखना समान होना चाहिए। जैविक और कृत्रिम तंत्रिका नेटवर्क के बीच अंतर समानताओं को पछाड़ते हैं।

उदाहरण के तौर पर यह कैसे भयावह हो सकता है, आप तर्क को मूल पोस्ट में बदल सकते हैं। आप एक दोपहर में कारों को पहचानने के लिए सीखने के लिए एक तंत्रिका नेटवर्क को प्रशिक्षित कर सकते हैं, बशर्ते आपके पास काफी तेज कंप्यूटर और प्रशिक्षण डेटा की कुछ मात्रा हो। आप इसे एक द्विआधारी कार्य (कार / कार नहीं) या एक बहु-स्तरीय कार्य (कार / ट्राम / बाइक / हवाई जहाज / नाव) बना सकते हैं और फिर भी उच्च स्तर की सफलता के लिए आश्वस्त हो सकते हैं।

इसके विपरीत, मुझे उम्मीद नहीं होगी कि एक बच्चा दिन में एक कार लेने में सक्षम होगा - या सप्ताह भी - इसके जन्म के बाद भी, इसके बाद भी "इतने सारे प्रशिक्षण उदाहरण" देखे हैं। दो वर्षीय और एक शिशु के बीच स्पष्ट रूप से कुछ अलग है जो सीखने की क्षमता में अंतर के लिए जिम्मेदार है, जबकि एक वेनिला छवि वर्गीकरण तंत्रिका नेटवर्क "जन्म" के तुरंत बाद वस्तु वर्गीकरण लेने में पूरी तरह से सक्षम है । मुझे लगता है कि दो महत्वपूर्ण अंतर हैं: (1) उपलब्ध प्रशिक्षण डेटा के सापेक्ष मात्रा और (2) प्रचुर प्रशिक्षण डेटा के कारण समय के साथ विकसित होने वाला एक स्व-शिक्षण तंत्र।


मूल पोस्ट दो सवालों को उजागर करती है। सवाल का शीर्षक और निकाय पूछते हैं कि तंत्रिका नेटवर्क को "इतने सारे उदाहरणों की आवश्यकता क्यों है।" एक बच्चे के अनुभव के सापेक्ष, सामान्य छवि बेंचमार्क का उपयोग करके प्रशिक्षित तंत्रिका नेटवर्क में तुलनात्मक रूप से बहुत कम डेटा होता है।

मैं शीर्षक में प्रश्न को फिर से उद्धृत करूंगा

"एक सामान्य छवि बेंचमार्क के लिए एक न्यूरल नेटवर्क प्रशिक्षण कैसे एक बच्चे के सीखने के अनुभव की तुलना और इसके विपरीत है?"

तुलना के लिए मैं CIFAR-10 डेटा पर विचार करूंगा क्योंकि यह एक सामान्य छवि बेंचमार्क है। लेबल वाला हिस्सा प्रति वर्ग 6000 छवियों के साथ छवियों के 10 वर्गों से बना है। प्रत्येक छवि 32x32 पिक्सेल है। यदि आप किसी तरह CIFAR-10 से लेबल की गई छवियों को स्टैक्ड करते हैं और एक मानक 48 एफपीएस वीडियो बनाते हैं, तो आपके पास लगभग 20 मिनट का फुटेज होगा।

2 साल का एक बच्चा जो दुनिया को रोजाना 12 घंटे देखता है, उसके पास वयस्कों की प्रतिक्रिया (लेबल) सहित दुनिया की प्रत्यक्ष टिप्पणियों के लगभग 263000 मिनट (4000 घंटे से अधिक) हैं। (ये सिर्फ बॉलपार्क के आंकड़े हैं - मुझे नहीं पता कि दुनिया को देखने के लिए एक ठेठ दो साल के बच्चे ने कितने मिनट बिताए हैं।) इसके अलावा, बच्चे को 10 कक्षाओं से परे कई वस्तुओं के संपर्क में आना होगा, जिनमें CIFAR भी शामिल है- 10।

इसलिए खेल में कुछ चीजें हैं। एक यह है कि बच्चे के पास समग्र डेटा के लिए जोखिम है और CIFAR-10 मॉडल की तुलना में डेटा का अधिक विविध स्रोत है। डेटा विविधता और डेटा की मात्रा सामान्य रूप से मजबूत मॉडल के लिए पूर्व-आवश्यकता के रूप में अच्छी तरह से पहचानी जाती है। इस प्रकाश में, यह आश्चर्य की बात नहीं है कि एक तंत्रिका नेटवर्क बच्चे की तुलना में इस कार्य में बदतर है, क्योंकि सीआईएफएआर -10 पर प्रशिक्षित एक तंत्रिका नेटवर्क दो साल की तुलना में प्रशिक्षण डेटा के लिए सकारात्मक रूप से भूखा है। एक बच्चे के लिए उपलब्ध छवि रिज़ॉल्यूशन 32x32 CIFAR-10 छवियों से बेहतर है, इसलिए बच्चा वस्तुओं के बारीक विवरण के बारे में जानकारी जानने में सक्षम है।

CIFAR-10 से दो साल पुरानी तुलना सही नहीं है क्योंकि CIFAR-10 मॉडल को संभवतः एक ही स्थिर चित्रों के साथ कई पास के साथ प्रशिक्षित किया जाएगा, जबकि बच्चा द्विनेत्री दृष्टि का उपयोग करके देखेगा कि वस्तुओं को तीन में कैसे व्यवस्थित किया जाता है -एक ही वस्तुओं पर अलग-अलग प्रकाश व्यवस्था की स्थिति और दृष्टिकोण के साथ गतिशील दुनिया।

ओपी के बच्चे के बारे में एक किस्सा एक दूसरे सवाल का है,

"तंत्रिका नेटवर्क स्व-शिक्षण कैसे बन सकता है?"

एक बच्चे को स्व-शिक्षण के लिए कुछ प्रतिभाओं के साथ संपन्न किया जाता है, ताकि समय के साथ वस्तुओं की नई श्रेणियों को खरोंच से शुरू किए बिना जोड़ा जा सके।

  • बारे में ओपी की टिप्पणी मशीन सीखने के संदर्भ में एक प्रकार का मॉडल अनुकूलन है।

  • टिप्पणियों में, अन्य उपयोगकर्ताओं ने बताया है कि एक- और कुछ-शॉट लर्निंग * एक और मशीन लर्निंग रिसर्च क्षेत्र है।

  • इसके अतिरिक्त, एक अलग दृष्टिकोण से स्व-शिक्षण मॉडल को संबोधित करता है, अनिवार्य रूप से रोबोट को विशिष्ट समस्याओं (जैसे शतरंज खेलने) के समाधान के लिए इष्टतम रणनीति खोजने के लिए परीक्षण और त्रुटि प्रयोग करने की अनुमति देता है।

यह शायद सच है कि इन तीनों मशीन सीखने के प्रतिमानों को सुधारने के लिए जर्मन हैं जो मशीनों को नए कंप्यूटर विज़न कार्यों के लिए अनुकूल बनाते हैं। नए कार्यों के लिए मशीन सीखने के मॉडल को जल्दी से अपनाना अनुसंधान का एक सक्रिय क्षेत्र है। हालाँकि, क्योंकि इन परियोजनाओं के व्यावहारिक लक्ष्य (मैलवेयर के नए उदाहरणों को पहचानते हैं, पासपोर्ट फ़ोटो में इंपोस्टर्स को पहचानते हैं, इंटरनेट को अनुक्रमित करते हैं) और सफलता के मापदंड दुनिया के बारे में सीखने वाले बच्चे के लक्ष्यों से भिन्न होते हैं, और यह तथ्य कि एक किया जाता है एक कंप्यूटर जो गणित का उपयोग कर रहा है और दूसरा रसायन विज्ञान का उपयोग करके कार्बनिक पदार्थों में किया जाता है, दोनों के बीच सीधी तुलना नहीं की जाएगी।


एक तरफ के रूप में, यह अध्ययन करना दिलचस्प होगा कि CIFAR-10 समस्या को कैसे फ्लिप करें और प्रत्येक के 10 उदाहरणों से 6000 वस्तुओं को पहचानने के लिए एक तंत्रिका नेटवर्क को प्रशिक्षित करें। लेकिन यहां तक ​​कि यह 2-वर्षीय की तुलना में उचित नहीं होगा, क्योंकि प्रशिक्षण डेटा की कुल मात्रा, विविधता और संकल्प में अभी भी एक बड़ी विसंगति होगी।

* हमारे पास वर्तमान में एक-शॉट सीखने या कुछ-शॉट सीखने के लिए कोई टैग नहीं है।


34
इसे थोड़ा और विशिष्ट बनाने के लिए, एक मानव बच्चे के पास पहले से ही दसियों हज़ारों उदाहरणों के साथ प्रशिक्षण का वर्ष है, जो उन्हें यह निर्धारित करने की अनुमति देता है कि विभिन्न कोणों से देखे जाने पर ऑब्जेक्ट कैसे दिखते हैं, उनकी सीमाओं की पहचान कैसे करें, स्पष्ट आकार और वास्तविक आकार के बीच संबंध , और इसी तरह।
डेविड श्वार्ट्ज

25
एक बच्चे का मस्तिष्क गर्भ के अंदर सक्रिय होता है । पानी के माध्यम से ध्वनि को फ़िल्टर किए जाने के बाद, शिशु ध्वनि द्वारा अपने माता-पिता की पहचान कर सकता है । एक नए जन्मे बच्चे के पास जन्म से पहले काम करने के लिए महीनों का डेटा था, लेकिन उन्हें अभी भी वर्षों की आवश्यकता है इससे पहले कि वे एक शब्द बना सकें, फिर कुछ साल पहले वे एक वाक्य बना सकते हैं, फिर एक व्याकरणिक रूप से सही वाक्य के लिए कुछ और , आदि ... सीखना बहुत जटिल है
नेल्सन

5
@EelcoHoogendoorn यह सवाल में इस्तेमाल किए गए कंट्रास्ट 'चाइल्ड' बनाम 'न्यूरल नेटवर्क' की व्याख्या करता है। जवाब है कि यह केवल एक स्पष्ट विपरीत है। तंत्रिका नेटवर्क को कई उदाहरणों की आवश्यकता नहीं है, क्योंकि बच्चों को भी कई उदाहरण मिलते हैं (लेकिन सिर्फ एक अलग तरीके से) वे कारों को पहचानने में सक्षम होते हैं।
सेक्सटस एम्पिरिकस

4
@ नेल्सन, मुझे यकीन नहीं है कि आपकी टिप्पणी का कारण क्या है, लेकिन आप 'वर्ष' को 'वर्ष' में बदल सकते हैं। 1 साल के बच्चों के साथ शब्द बोलते हैं, 2 साल के साथ पहले वाक्य बोले जाते हैं, और 3 साल के व्याकरण के साथ, जैसे कि पिछले तनाव और सर्वनाम, सही तरीके से उपयोग किए जाते हैं।
सेक्सटस एम्पिरिकस

1
@EelcoHoogendoorn मुझे लगता है कि प्रश्न का आधार दोषपूर्ण सादृश्य से तर्क का मामला है, इसलिए सीधे सादृश्य उत्तरदायी है। इसके विपरीत जैविक और कृत्रिम तंत्रिका नेटवर्क भी उत्तरदायी है, क्योंकि उत्तर यह रेखांकित करेगा कि जैविक और कृत्रिम तंत्रिका नेटवर्क उनके नाम में सबसे समान हैं (दोनों में "तंत्रिका नेटवर्क" वाक्यांश है) लेकिन उनकी आवश्यक विशेषताओं में समान नहीं है, या कम से कम विशेषताओं प्रश्न द्वारा ग्रहण किया गया।
मोनिका

49

सबसे पहले, दो साल की उम्र में, एक बच्चा दुनिया के बारे में बहुत कुछ जानता है और इस ज्ञान को सक्रिय रूप से लागू करता है। एक बच्चा इस ज्ञान को नई अवधारणाओं पर लागू करके बहुत से "ट्रांसफर लर्निंग" करता है।

दूसरा, कारों के उन पांच "लेबल" उदाहरणों को देखने से पहले, एक बच्चा सड़क पर बहुत सारी कारों को टीवी, टॉय कारों आदि पर देखता है, इसलिए बहुत सारी "अनप्रूव्ड लर्निंग" पहले से होती है।

अंत में, तंत्रिका नेटवर्क के पास मानव मस्तिष्क के साथ लगभग कुछ भी नहीं है, इसलिए उनकी तुलना करने में बहुत अधिक बिंदु नहीं है। यह भी ध्यान दें कि एक-शॉट सीखने के लिए एल्गोरिदम हैं, और इस पर बहुत अधिक शोध वर्तमान में होता है।


9
4 वाँ बिंदु, एक बच्चे में भी कुशलतापूर्वक / सही ढंग से सीखने की दिशा में 100 मिलियन से अधिक वर्षों का विकासवादी चयन है।
सीएसआईज

39

एक प्रमुख पहलू जो मुझे वर्तमान उत्तरों में नहीं दिखता है वह है विकासवाद

एक बच्चे का मस्तिष्क खरोंच से नहीं सीखता है। यह पूछने के समान है कि हिरण और जिराफ बच्चे जन्म के कुछ मिनट बाद कैसे चल सकते हैं। क्योंकि वे अपने दिमाग के साथ पहले से ही इस काम के लिए पैदा हुए हैं। वहाँ कुछ ठीक ट्यूनिंग की जरूरत है, लेकिन बच्चे हिरण "यादृच्छिक आरंभीकरण" से चलना नहीं सीखता है।

इसी तरह, यह तथ्य कि बड़ी चलती वस्तुएं मौजूद हैं और हम जिस चीज के साथ पैदा हुए हैं, उसका ट्रैक रखना महत्वपूर्ण है।

इसलिए मुझे लगता है कि इस सवाल का बचाव केवल झूठा है। मानव तंत्रिका नेटवर्क में टन को देखने का अवसर था - शायद कार नहीं - लेकिन मुश्किल बनावट और आकृतियों आदि के साथ 3 डी ऑब्जेक्ट्स को घुमाते हुए, लेकिन यह कई पीढ़ियों के माध्यम से हुआ और विकासवादी एल्गोरिदम द्वारा सीख लिया गया, अर्थात जिनके मस्तिष्क इस कार्य के लिए बेहतर ढंग से संरचित किया गया था, जो उच्चतर संभावना के साथ पुन: पेश करने के लिए जी सकता था, अगली पीढ़ी को शुरुआत से बेहतर और बेहतर मस्तिष्क वायरिंग के साथ छोड़ दिया।


8
एक तरफ मज़ा: वहाँ सबूत है कि जब कारों के विभिन्न मॉडलों के बीच भेदभाव करने की बात आती है, तो हम वास्तव में हमारे मस्तिष्क के विशेष चेहरे की पहचान केंद्र का लाभ उठाते हैं । यह प्रशंसनीय है कि, जबकि एक बच्चा विभिन्न मॉडलों के बीच अंतर नहीं कर सकता है, एक मोबाइल वस्तु पर एक 'चेहरे' की अंतर्निहित उपस्थिति कारों को एक प्रकार के प्राणी के रूप में वर्गीकृत किया जा सकता है और इसलिए इसे मोबाइल से पहचाने जाने के बाद, विकास द्वारा पहचाने जाने का पक्षधर हो सकता है। चेहरे वाली वस्तुएं जीवित रहने में सहायक होती हैं।
दान ब्रायंट

7
यह उत्तर ठीक वही है जो मैं सोच रहा था। बच्चे खाली स्लेट के रूप में पैदा नहीं होते हैं । वे सुविधाओं है कि कुछ नमूनों को पहचानने में आसान बनाने के साथ आते हैं, कुछ चीजों को आसान जानने के लिए, आदि
उड़ानों

1
जबकि पशु जो गर्भ के ठीक बाहर चलते हैं, वे वास्तव में आकर्षक होते हैं, ऐसे विकासवादी हार्डवेरिंग को मानव सीखने के बिल्कुल विपरीत चरम पर माना जाता है, जिसे प्राकृतिक दुनिया में अनुभव-संचालित सीखने के चरम माना जाता है। निश्चित रूप से कारों ने हमारे दिमाग के विकास पर न्यूनतम विकासवादी प्रभाव छोड़ा होगा।
इलको होगेंडोर्न

5
@EelcoHoogendoorn पर्यावरण को सीखने और समझने की क्षमता का विकास किया गया है। मस्तिष्क का विकास शिक्षा द्वारा अत्यंत कुशल होने के लिए किया गया है। डॉट्स कनेक्ट करने के लिए, पैटर्न देखने, आकार और आंदोलन को समझने की क्षमता आदि, अनुमान बनाता है
उड़ानों

3
यह एक अच्छा बिंदु है, लेकिन यह भी सच है कि जैसा कि शोधकर्ताओं को यह समझ में आता है, वे एनएन का निर्माण करते हैं जिसमें हार्ड-कोडेड संरचनाएं होती हैं जो कुछ प्रकार के सीखने की सुविधा प्रदान करती हैं। गौर करें कि एक दृढ़ एनएन में कठोर कोडित ग्रहणशील क्षेत्र हैं जो दृश्य कार्यों पर सीखने / प्रदर्शन को बढ़ाने में बहुत तेजी लाते हैं। उन क्षेत्रों को पूरी तरह से जुड़े नेटवर्क में खरोंच से सीखा जा सकता है, लेकिन यह बहुत कठिन है। @EelcoHoogendoorn, मानव दिमाग संरचना से भरा है जो सीखने की सुविधा देता है।
गंग - मोनिका

21

मुझे न्यूरल नेटवर्क के बारे में ज्यादा जानकारी नहीं है, लेकिन मैं शिशुओं के बारे में बहुत कुछ जानता हूं।

कई 2 साल के बच्चों के पास बहुत सारे मुद्दे हैं कि सामान्य शब्द कैसे होने चाहिए। उदाहरण के लिए, बच्चों के लिए किसी भी चार पैर वाले जानवर के लिए "कुत्ते" का उपयोग करना उस उम्र में काफी आम है। यह "कार" की तुलना में अधिक कठिन अंतर है - बस सोचें कि एक महान डेन से पुडल कितना अलग दिखता है, उदाहरण के लिए और फिर भी वे दोनों "कुत्ते" हैं, जबकि एक बिल्ली नहीं है।

और 2 साल के एक बच्चे ने "कार" के 5 से अधिक उदाहरणों में से कई को देखा है। एक बच्चा दर्जनों या यहां तक ​​कि कारों के सैकड़ों उदाहरण देखता है जब भी परिवार ड्राइव के लिए जाता है। और बहुत से माता-पिता टिप्पणी करेंगे कि "कार को देखो" 5 बार से अधिक है। लेकिन बच्चे उन तरीकों से भी सोच सकते हैं जिनके बारे में उन्हें नहीं बताया गया था। उदाहरण के लिए, सड़क पर बच्चा बहुत सारी चीजें देखता है। उनके पिता कहते हैं (एक का) "चमकदार कार को देखो!" और बच्चा सोचता है "हो सकता है कि जो अन्य चीजें लाइन में खड़ी हैं वे भी कार हैं?"


2
अन्य उदाहरण: टैक्सी की, ड्राइविंग सबक कारें, और पुलिस की कारें समान हैं। जब भी कोई कार लाल रंग की होती है तो वह फायरट्रेक होती है। कैंपवर्न एंबुलेंस हैं। लोडर क्रेन के साथ एक लॉरी को उत्खनन के रूप में वर्गीकृत किया जाता है। जिस बस से गुज़रा है, वह ट्रेन स्टेशन तक जाती है, इसलिए अगली बस जो दिखती है, उसे भी ट्रेन स्टेशन तक जाना होगा। और दिन के उजाले के दौरान चंद्रमा को देखना एक बहुत ही खास घटना है।
सेक्सटस एम्पिरिकस

10

यह एक आकर्षक सवाल है, जिसे मैंने बहुत अधिक समझा है, और कुछ स्पष्टीकरणों के साथ क्यों आ सकता है।

  • तंत्रिका नेटवर्क मस्तिष्क की तरह काम नहीं करते हैं। Backpropagation तंत्रिका नेटवर्क के लिए अद्वितीय है, और मस्तिष्क में नहीं होता है। इस अर्थ में, हम सिर्फ अपने दिमाग में सामान्य शिक्षण एल्गोरिथ्म नहीं जानते हैं। यह विद्युत हो सकता है, यह रासायनिक हो सकता है, यह दो का संयोजन भी हो सकता है। तंत्रिका नेटवर्क को हमारे दिमाग की तुलना में सीखने का एक अवर रूप माना जा सकता है क्योंकि वे कितने सरल हैं।
  • यदि तंत्रिका नेटवर्क वास्तव में हमारे मस्तिष्क की तरह हैं, तो मानव बच्चे अपने शुरुआती दिनों में सुविधा निष्कर्षण जैसी प्रारंभिक परतों के व्यापक "प्रशिक्षण" से गुजरते हैं। इसलिए उनके तंत्रिका नेटवर्क को वास्तव में खरोंच से प्रशिक्षित नहीं किया जाता है, बल्कि अंतिम परत को अधिक से अधिक कक्षाएं और लेबल जोड़ने के लिए फिर से लगाया जाता है।

9

2 वर्ष की आयु के एक मानव बच्चे को कार की लगभग 5 आवृत्तियों की आवश्यकता होती है, ताकि वह रंग, मेकअप आदि की उचित सटीकता के साथ पहचान कर सके।

"उदाहरण" की अवधारणा आसानी से muddied हो जाती है। जबकि एक बच्चे ने कार के 5 अद्वितीय उदाहरण देखे होंगे, उन्होंने वास्तव में कई अलग-अलग वातावरणों में हजारों-हजारों फ्रेम देखे होंगे। उन्होंने अन्य संदर्भों में कारों को देखा है। उनके जीवनकाल में विकसित भौतिक दुनिया के लिए उनके पास एक अंतर्ज्ञान भी है - कुछ हस्तांतरण सीखने शायद यहां होता है। फिर भी हम सभी को "5 उदाहरणों" में लपेटते हैं।

इस बीच, सीएनएन में आपके द्वारा पास किया जाने वाला हर एक फ्रेम "उदाहरण" माना जाता है। यदि आप एक सुसंगत परिभाषा लागू करते हैं, तो दोनों प्रणालियाँ वास्तव में प्रशिक्षण डेटा की समान मात्रा का उपयोग कर रही हैं।

इसके अलावा, मैं यह ध्यान देना चाहूंगा कि एएनएन की तुलना में कंप्यूटर के विज़न में कनवल्चरल न्यूरल नेटवर्क - सीएनएन अधिक उपयोगी होते हैं, और वास्तव में इमेज क्लासिफिकेशन जैसे कार्यों में मानव का प्रदर्शन होता है। डीप लर्निंग (शायद) रामबाण नहीं है, लेकिन यह इस डोमेन में सराहनीय प्रदर्शन करता है।


5

जैसा कि दूसरों द्वारा बताया गया है, कृत्रिम तंत्रिका नेटवर्क की डेटा-दक्षता विवरण के आधार पर काफी भिन्न होती है। तथ्य की बात के रूप में, कई तथाकथित एक-शॉट सीखने के तरीके हैं, जो केवल एक ही लेबल वाले नमूने का उपयोग करके, काफी अच्छी सटीकता के साथ ट्राम लेबल करने के कार्य को हल कर सकते हैं।

ऐसा करने का एक तरीका तथाकथित ट्रांसफर लर्निंग है; अन्य लेबल पर प्रशिक्षित नेटवर्क आमतौर पर नए लेबल के लिए बहुत प्रभावी रूप से अनुकूल होता है, क्योंकि कड़ी मेहनत समझदार तरीके से छवि के निम्न स्तर के घटकों को तोड़ रही है।

लेकिन हमें ऐसे कार्य करने के लिए ऐसे लेबल डेटा की आवश्यकता नहीं है; बहुत से शिशुओं को नर्व के नेटवर्कों के रूप में लगभग लेबल वाले डेटा की आवश्यकता नहीं होती है जो आप करने की सोच रहे हैं।

उदाहरण के लिए, एक ऐसी अनुपयोगी विधियाँ, जो मैंने अन्य संदर्भों में भी सफलतापूर्वक लागू की हैं, एक बेतरतीब ढंग से बनाई गई छवियों को लेना है, उन्हें बेतरतीब ढंग से घुमाना है, और एक नेटवर्क को यह अनुमान लगाने के लिए प्रशिक्षित करना है कि छवि किस तरफ है 'ऊपर'। दृश्य वस्तुओं क्या हैं या उन्हें क्या कहा जाता है, यह जानने के बिना, यह नेटवर्क को छवियों के बारे में जबरदस्त मात्रा में सीखने के लिए मजबूर करता है; और यह बहुत अधिक डेटा-कुशल बाद में लेबल सीखने के लिए एक उत्कृष्ट आधार बना सकता है।

हालांकि यह सच है कि कृत्रिम नेटवर्क संभवतः सार्थक तरीकों से वास्तविक लोगों से काफी अलग हैं, जैसे कि बैकप्रोपेगैनेशन के एक स्पष्ट एनालॉग की अनुपस्थिति, यह शायद बहुत सच है कि वास्तविक तंत्रिका नेटवर्क एक ही चाल का उपयोग करते हैं, सीखने की कोशिश करने के लिए कुछ सरल पुजारियों द्वारा निहित डेटा में संरचना।

एक अन्य उदाहरण जो लगभग निश्चित रूप से जानवरों में एक भूमिका निभाता है और वीडियो को समझने में भी महान वादा दिखाया है, इस धारणा में है कि भविष्य को अतीत से अनुमान लगाया जाना चाहिए। बस उस धारणा से शुरू करके, आप एक तंत्रिका नेटवर्क को बहुत कुछ सिखा सकते हैं। या दार्शनिक स्तर पर, मेरा मानना ​​है कि यह धारणा लगभग हर चीज को रेखांकित करती है जिसे हम 'ज्ञान' मानते हैं।

मैं यहां कुछ नया नहीं कह रहा हूं; लेकिन यह इस अर्थ में अपेक्षाकृत नया है कि ये संभावनाएँ अभी तक कई अनुप्रयोगों को पाने के लिए बहुत युवा हैं, और अभी तक 'एक एएनएन क्या कर सकते हैं' की पाठ्यपुस्तक की समझ को कम नहीं किया है। तो ओपी सवाल का जवाब देने के लिए; ANN ने पहले से ही आपके द्वारा बताए गए अंतर को बंद कर दिया है।


4

एक गहरे तंत्रिका नेटवर्क को प्रशिक्षित करने का एक तरीका यह है कि इसे ऑटो-एनकोडर ( प्रतिबंधित बोल्ट्ज़मैन मशीनों ) के ढेर के रूप में माना जाए ।

सिद्धांत रूप में, एक ऑटो-एनकोडर एक असुरक्षित तरीके से सीखता है: यह मनमाना, बिना इनपुट इनपुट डेटा लेता है और आउटपुट डेटा उत्पन्न करने के लिए इसे प्रोसेस करता है। फिर यह उस आउटपुट डेटा को लेता है, और इसके इनपुट डेटा को फिर से लाने की कोशिश करता है। यह अपने नोड्स के मापदंडों को ट्विस्ट करता है जब तक कि यह अपने डेटा को राउंड-ट्रिपिंग के करीब नहीं ला सकता। यदि आप इसके बारे में सोचते हैं, तो ऑटो-एनकोडर अपनी स्वचालित इकाई परीक्षण लिख रहा है। वास्तव में, यह अपने "अनलेबल इनपुट डेटा" को लेबल किए गए डेटा में बदल रहा है: मूल डेटा गोल-ट्रिप किए गए डेटा के लिए एक लेबल के रूप में कार्य करता है।

ऑटो-एनकोडर की परतों को प्रशिक्षित करने के बाद, तंत्रिका नेटवर्क ठीक से ट्यून किया जाता है ताकि उसका इच्छित कार्य किया जा सके। वास्तव में, ये कार्यात्मक परीक्षण हैं।

मूल पोस्टर पूछता है कि एक कृत्रिम तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए बहुत सारे डेटा की आवश्यकता क्यों है, और दो साल के मानव द्वारा आवश्यक प्रशिक्षण डेटा की कथित कम मात्रा की तुलना करता है। मूल पोस्टर सेब-से-संतरे की तुलना कर रहा है: कृत्रिम तंत्रिका जाल के लिए समग्र प्रशिक्षण प्रक्रिया, बनाम दो-वर्षीय के लिए लेबल के साथ ठीक-ट्यूनिंग।

लेकिन वास्तव में, दो साल पुराना अपने ऑटो-एनकोडर को दो साल से अधिक समय से यादृच्छिक, स्व-लेबल डेटा पर प्रशिक्षण दे रहा है। शिशुओं का सपना तब होता है जब वे गर्भाशय में होते हैं । (तो बिल्ली के बच्चे करते हैं।) शोधकर्ताओं ने इन सपनों को दृश्य प्रसंस्करण केंद्रों में यादृच्छिक न्यूरॉन फ़ेरिंग्स को शामिल करने के रूप में वर्णित किया है।


1
माना; सिवाय इसके कि व्यवहार में ऑटो-एनकोडर बहुत शक्तिशाली उपकरण नहीं हैं, जो कि बहुत ही अनिश्चित सीखने का काम कर रहे हैं; हम सब कुछ जानते हैं कि वहाँ पर और अधिक हो रहा है, इसलिए 'दो साल पुरानी है कि अपने ऑटो' encoders प्रशिक्षण दिया गया है phrasing नहीं लिया जाना चाहिए शाब्दिक रूप से मुझे लगता है।
इलको होगेंडोर्न

4

हम "कारों को देखना" तब तक नहीं सीखते जब तक हम देखना नहीं सीखते

एक बच्चे को इस तरह की वस्तुओं को देखने के लिए सीखने के लिए काफी लंबा समय और बहुत सारे उदाहरण लगते हैं। उसके बाद, एक बच्चा केवल कुछ उदाहरणों से एक विशेष प्रकार की वस्तु की पहचान करना सीख सकता है । यदि आप एक दो साल के बच्चे की सीखने की प्रणाली के साथ तुलना करते हैं जो शाब्दिक रूप से एक खाली स्लेट से शुरू होता है, तो यह एक सेब और संतरे की तुलना है; उस उम्र में बच्चे ने "वीडियो फुटेज" के हजारों घंटे देखे हैं।

इसी तरह से, यह कृत्रिम तंत्रिका नेटवर्क को "देखने के तरीके" जानने के लिए बहुत सारे उदाहरण लेता है, लेकिन इसके बाद उस ज्ञान को नए उदाहरणों में स्थानांतरित करना संभव है। ट्रांसफर लर्निंग मशीन लर्निंग का एक संपूर्ण डोमेन है, और "वन शॉट लर्निंग" जैसी चीजें संभव हैं - आप एएनएन का निर्माण कर सकते हैं जो नए प्रकार की वस्तुओं की पहचान करना सीखेंगे, जो कि एक उदाहरण से पहले नहीं देखी गई है, या एक की पहचान करने के लिए उनके चेहरे की एक तस्वीर से विशेष व्यक्ति। लेकिन इस प्रारंभिक "सीखने के लिए" भाग को अच्छी तरह से करने के लिए काफी डेटा की आवश्यकता होती है।

इसके अलावा, कुछ सबूत हैं कि सभी प्रशिक्षण डेटा समान नहीं हैं, अर्थात्, वह डेटा जिसे आप "चुनते" हैं जबकि सीखना उस डेटा की तुलना में अधिक प्रभावी है जो आपको बस प्रदान किया जाता है। जैसे हेल्ड और हेन जुड़वां बिल्ली का बच्चा प्रयोग। https://www.lri.fr/~mbl/ENS/FONDIHM/2013/papers/about-HeldHein63.pdf


4

एक बात जो मैंने अब तक के उत्तरों में नहीं देखी है, वह यह है कि एक वास्तविक विश्व वस्तु का एक 'उदाहरण' जो मानव बच्चे द्वारा देखा जाता है, वह एनएन प्रशिक्षण के संदर्भ में एक उदाहरण से मेल नहीं खाता है।

मान लीजिए कि आप 5 साल के बच्चे के साथ रेलवे चौराहे पर खड़े हैं और 10 मिनट के भीतर 5 ट्रेनें गुजरती हैं। अब, आप कह सकते हैं "मेरे बच्चे ने केवल 5 गाड़ियों को देखा और अन्य ट्रेनों की मज़बूती से पहचान कर सकता है जबकि एक एनएन को हजारों छवियों की आवश्यकता होती है।" हालांकि, यह सच है, आप इस तथ्य को पूरी तरह से अनदेखा कर रहे हैं कि आपके बच्चे द्वारा देखी जाने वाली प्रत्येक ट्रेन में ट्रेन की एकल छवि की तुलना में बहुत अधिक जानकारी होती है। वास्तव में, आपके बच्चे का मस्तिष्क प्रति सेकंड ट्रेन की कई दर्जन छवियों को संसाधित कर रहा है, जबकि यह गुजर रहा है, प्रत्येक थोड़ा अलग कोण, अलग-अलग छाया, आदि से है, जबकि एक एकल छवि एनएन को बहुत सीमित जानकारी प्रदान करेगी। इस संदर्भ में, आपके बच्चे के पास भी ऐसी जानकारी है जो एनएन के लिए उपलब्ध नहीं है, उदाहरण के लिए ट्रेन की गति या ट्रेन द्वारा की जाने वाली ध्वनि।

इसके अलावा, आपका बच्चा बात कर सकता है और पूछ सकता है! "ट्रेनें बहुत लंबी हैं, है ना?" "हाँ।", "और वे बहुत बड़े हैं, है ना?" "हाँ।"। दो सरल प्रश्नों के साथ, आपका बच्चा एक मिनट से भी कम समय में दो बहुत आवश्यक सुविधाएँ सीखता है!

एक अन्य महत्वपूर्ण बिंदु वस्तु का पता लगाना है। आपका बच्चा किस वस्तु पर तुरंत पहचान करने में सक्षम है, यानी छवि के किस हिस्से पर, इस पर ध्यान देने की आवश्यकता है, जबकि एक एनएन को इसे वर्गीकृत करने का प्रयास करने से पहले संबंधित वस्तु का पता लगाना सीखना चाहिए।


3
मैं यह भी जोड़ना चाहूंगा कि बच्चे का संदर्भ है : यह रेल पर एक ट्रेन देखता है, चाहे वह स्टेशन, लेवल क्रॉसिंग आदि पर हो, यदि यह एक विशाल (ज़ेपेलिन आकार) गुब्बारा देखता है और आकाश में एक ट्रेन की तरह दिखता है यह नहीं कहूंगा कि यह एक ट्रेन है। यह कहेगा कि यह एक ट्रेन की तरह दिखता है, लेकिन यह एक लेबल "ट्रेन" को इसमें संलग्न नहीं करेगा। मुझे संदेह है कि एक एनएन इस मामले में "ट्रेन-दिखने वाला गुब्बारा" लेबल लौटाएगा। इसी तरह, एक बच्चा वास्तविक ट्रेन के साथ उस पर एक ट्रेन के साथ बिलबोर्ड की गलती नहीं करेगा। ट्रेन की तस्वीर का चित्र एनएन के लिए ट्रेन की तस्वीर है - यह "ट्रेन" लेबल लौटाएगा।
कोरी 979

3

मेरा तर्क है कि प्रदर्शन उतना अलग नहीं है जितना आप उम्मीद कर सकते हैं, लेकिन आप एक महान प्रश्न पूछते हैं (अंतिम पैराग्राफ देखें)।

जैसा कि आप ट्रांसफर लर्निंग का उल्लेख करते हैं: सेब के साथ सेब की तुलना करने के लिए हमें यह देखना होगा कि कुल मिलाकर कितने चित्र हैं और मानव / तंत्रिका जाल के हित के कितने चित्र हैं "देखता है"।

1. मानव कितने चित्रों को देखता है?

ह्युमन की आंख की गति लगभग 200ms होती है जिसे एक "जैविक फोटो" के रूप में देखा जा सकता है। कंप्यूटर विज़न विशेषज्ञ फ़ेई-फी ली द्वारा बातचीत देखें: https://www.ted.com/talks/fei_fei_li_how_re_teaching_ कंप्यूटर्स_to_understand_pictures#t-362785 ।

उसने मिलाया:

इसलिए 3 साल की उम्र में एक बच्चे ने लाखों तस्वीरों को देखा होगा।

ImageNet में, वस्तु का पता लगाने के लिए अग्रणी डेटाबेस, ~ 14million लेबल वाले चित्र हैं। इसलिए ImageNet पर प्रशिक्षित होने वाले एक तंत्रिका नेटवर्क ने 14000000/5/60/60/24 * 2 ~ 64 दिन के बच्चे के रूप में कई चित्र देखे होंगे, इसलिए दो महीने का बच्चा (बच्चे को उसके जीवन का आधा हिस्सा मान रहा है)। यह बताने के लिए कि इस चित्र को कितने लेबल पर चित्रित किया गया है, उचित होना। इसके अलावा, चित्र, एक बच्चा देखता है, इमेजनेट की तरह विविध नहीं हैं। (शायद बच्चा देखता है कि उसकी माँ के पास समय है, ...;)। हालांकि, मुझे लगता है कि यह कहना उचित है कि आपके बेटे ने सैकड़ों लाखों चित्र देखे होंगे (और फिर स्थानांतरण सीखने पर लागू होता है)।

तो हमें संबंधित चित्रों का एक ठोस आधार प्रदान करने वाली नई श्रेणी को सीखने के लिए कितने चित्रों की आवश्यकता है जो इससे सीखी जा सकती है?

पहली ब्लॉग पोस्ट जो मुझे मिली वह यह थी: https://blog.keras.io/building-powerful-image-classification-models-use-very-little-data.html । वे प्रति वर्ग 1000 उदाहरणों का उपयोग करते हैं। मैं कल्पना कर सकता था कि 2.5 साल बाद भी कम की आवश्यकता है। हालाँकि, 1000 चित्रों को एक मानव द्वारा 3.3 मिनट में 1000/5/60 में देखा जा सकता है।

आप ने लिखा:

2 वर्ष की आयु के एक मानव बच्चे को कार की लगभग 5 आवृत्तियों की आवश्यकता होती है, ताकि वह रंग, मेकअप आदि की उचित सटीकता के साथ पहचान कर सके।

यह प्रति सेकंड चालीस सेकंड के बराबर होगा (उस वस्तु के विभिन्न कोणों के साथ इसे तुलनीय बनाने के लिए)।

योग करने के लिए: जैसा कि मैंने उल्लेख किया है, मुझे कुछ धारणाएँ बनानी थीं। लेकिन मुझे लगता है, कोई यह देख सकता है कि प्रदर्शन उतना अलग नहीं है जितना कोई उम्मीद कर सकता है।

हालाँकि, मेरा मानना ​​है कि आप एक महान प्रश्न पूछते हैं और यहाँ है:

2. क्या तंत्रिका नेटवर्क बेहतर / अलग प्रदर्शन करेंगे यदि वे दिमाग की तरह काम करेंगे? (ज्योफ्री हिंटन हां कहते हैं)।

एक साक्षात्कार में , https://www.wired.com/story/googles-ai-guru- कंप्यूटर्स-think-more-like-brains/, 2018 के अंत में, वह मस्तिष्क के साथ तंत्रिका नेटवर्क के वर्तमान कार्यान्वयन की तुलना करता है। उन्होंने उल्लेख किया, वजन के संदर्भ में, कृत्रिम तंत्रिका नेटवर्क 10.000 के कारक द्वारा मस्तिष्क से छोटे होते हैं। इसलिए, मस्तिष्क को सीखने के लिए प्रशिक्षण की कम पुनरावृत्तियों की आवश्यकता है। कृत्रिम तंत्रिका नेटवर्क को सक्षम करने के लिए, हमारे दिमाग की तरह अधिक काम करने के लिए, वह हार्डवेयर में एक अन्य प्रवृत्ति का अनुसरण करता है, यूके आधारित स्टार्टअप जो ग्राफकोर कहलाता है। यह एक तंत्रिका नेटवर्क के भार को संग्रहीत करने के स्मार्ट तरीके से गणना के समय को कम करता है। इसलिए, अधिक वजन का उपयोग किया जा सकता है और कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण का समय कम हो सकता है।


2

मैं इसमें विशेषज्ञ हूं। मैं इंसान हूं, मैं एक बच्चा था, मेरे पास एक कार है, और मैं एआई करता हूं।

बच्चों द्वारा अधिक सीमित उदाहरणों के साथ कारों को लेने का कारण अंतर्ज्ञान है। मानव मस्तिष्क में पहले से ही 3 डी घुमावों से निपटने के लिए संरचनाएं हैं। इसके अलावा, दो आँखें हैं जो गहराई से मानचित्रण के लिए लंबन प्रदान करती हैं जो वास्तव में मदद करती हैं। आप कार और कार की तस्वीर के बीच अंतर कर सकते हैं, क्योंकि तस्वीर के लिए कोई वास्तविक गहराई नहीं है। हिंटन (एआई शोधकर्ता) ने कैप्सूल नेटवर्क के विचार का प्रस्ताव दिया है, जो चीजों को अधिक सहजता से संभालने में सक्षम होगा। दुर्भाग्य से कंप्यूटर के लिए, प्रशिक्षण डेटा (आमतौर पर) 2 डी छवियां, फ्लैट पिक्सल की सरणियां हैं। अधिक फिट नहीं होने के लिए, बहुत अधिक डेटा की आवश्यकता होती है, इसलिए छवियों में कारों के उन्मुखीकरण को सामान्यीकृत किया जाता है। शिशु का मस्तिष्क पहले से ही ऐसा कर सकता है और किसी भी अभिविन्यास पर कार को पहचान सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.