निकट भविष्य में तंत्रिका नेटवर्क को बदलने की क्षमता रखने वाले मॉडल क्या हैं?


10

क्या ऐसे संभावित मॉडल हैं जो निकट भविष्य में तंत्रिका नेटवर्क को बदलने की क्षमता रखते हैं?

और क्या हमें इसकी आवश्यकता भी है? दक्षता के मामले में तंत्रिका नेटवर्क का उपयोग करने के बारे में सबसे बुरी बात क्या है?

जवाबों:


4

यह पीछे की ओर जा रहा है, लेकिन यह तर्कों के तर्क का अनुसरण करता है।

दक्षता के संदर्भ में, मैं शास्त्रीय तंत्रिका नेटवर्क के साथ कुछ प्रमुख समस्याएं देख सकता हूं।

डेटा संग्रह और ओवरप्रोसेसिंग ओवरहेड

बड़े तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए बहुत अधिक डेटा की आवश्यकता होती है । राशि नेटवर्क के आकार और कार्य की जटिलता के आधार पर भिन्न हो सकती है, लेकिन अंगूठे के नियम के रूप में यह आमतौर पर भार की संख्या के लिए आनुपातिक होता है। कुछ पर्यवेक्षित शिक्षण कार्यों के लिए, बस पर्याप्त उच्च-गुणवत्ता वाला लेबल डेटा नहीं है। विशेष प्रशिक्षण डेटा की बड़ी मात्रा में संग्रह करने में महीनों या साल भी लग सकते हैं, और लेबलिंग बोझिल और अविश्वसनीय हो सकती है। यह डेटा वृद्धि द्वारा आंशिक रूप से कम किया जा सकता है, जिसका अर्थ है कि आपके पास पहले से मौजूद अधिक उदाहरणों का "संश्लेषण" करना, लेकिन यह एक रामबाण नहीं है।

प्रशिक्षण समय बनाम ऊर्जा व्यापार

सीखने की दर आमतौर पर बहुत छोटी है, इसलिए प्रशिक्षण प्रगति धीमी है। एक बड़े मॉडल को डेस्कटॉप सीपीयू पर प्रशिक्षण के लिए सप्ताह लग सकते हैं, एक GPU क्लस्टर का उपयोग करके दो घंटे में प्रशिक्षित किया जा सकता है, जो कई किलोवाट बिजली की खपत करता है। प्रशिक्षण प्रक्रिया की प्रकृति के कारण यह एक मौलिक व्यापार है। कहा कि, GPUs तेजी से कुशल हो रहे हैं - उदाहरण के लिए, नया nVidia Volta GPU आर्किटेक्चर 300 W से कम खपत करते समय 15.7 TFLOPs के लिए अनुमति देता है।

गैर transferrability

अभी, वस्तुतः हर अलग समस्या के लिए एक कस्टम न्यूरल नेटवर्क की आवश्यकता होती है, जिसे डिजाइन, प्रशिक्षित और तैनात किया जाता है। जबकि समाधान अक्सर काम करता है, यह उस समस्या में बंद है। उदाहरण के लिए, अल्फा गो में शानदार है, लेकिन यह कार चलाने या संगीत की सिफारिशें प्रदान करने में निराशाजनक होगा - यह ऐसे कार्यों के लिए डिज़ाइन नहीं किया गया था। यह अतिरेक अतिरेक मेरे विचार में तंत्रिका नेटवर्क का एक बड़ा दोष है, और यह सामान्य रूप से तंत्रिका नेटवर्क अनुसंधान की प्रगति के लिए एक प्रमुख बाधा भी है। एक संपूर्ण अनुसंधान क्षेत्र है जिसे ट्रांसफर लर्निंग कहा जाता हैजो एक कार्य के लिए प्रशिक्षित नेटवर्क को किसी अलग कार्य के लिए लागू करने के तरीकों का पता लगाता है। अक्सर यह इस तथ्य से संबंधित है कि दूसरे कार्य पर एक नेटवर्क को खरोंच से प्रशिक्षित करने के लिए पर्याप्त डेटा नहीं हो सकता है, इसलिए कुछ अतिरिक्त ट्यूनिंग के साथ पूर्व-प्रशिक्षित मॉडल का उपयोग करने में सक्षम होना बहुत आकर्षक है।


प्रश्न का पहला भाग अधिक पेचीदा है। विशुद्ध रूप से सांख्यिकीय मॉडल को छोड़कर, मैंने मशीन सीखने के लिए कोई प्रमुख दृष्टिकोण नहीं देखा है जो तंत्रिका नेटवर्क से मौलिक रूप से अलग हैं । हालांकि, कुछ दिलचस्प घटनाक्रम हैं जो ध्यान देने योग्य हैं क्योंकि वे उपरोक्त कुछ अक्षमताओं को संबोधित करते हैं।

न्यूरोमोर्फिक चिप्स

पहले थोड़ी पृष्ठभूमि।

कम्प्यूटेशनल पॉवर के मामले में न्यूरल नेटवर्क के स्पाइकिंग में काफी संभावनाएं हैं। वास्तव में, यह साबित हो गया है कि वे सिग्माइड सक्रियण वाले शास्त्रीय तंत्रिका नेटवर्क की तुलना में कड़ाई से अधिक शक्तिशाली हैं

इसके अलावा, तंत्रिका नेटवर्क के स्पाइकिंग में समय का आंतरिक आभास होता है - ऐसा कुछ जो शास्त्रीय नेटवर्क के लिए एक बड़ी बाधा रहा है। इतना ही नहीं, लेकिन स्पिकिंग नेटवर्क ईवेंट-चालित होते हैं , जिसका अर्थ है कि न्यूरॉन्स केवल तभी संचालित होते हैं जब एक आने वाला संकेत होता है। यह शास्त्रीय नेटवर्क के विपरीत है, जहां प्रत्येक न्यूरॉन का मूल्यांकन उसके इनपुट की परवाह किए बिना किया जाता है (फिर से, यह मूल्यांकन प्रक्रिया का एक परिणाम है आमतौर पर दो घने मेट्रिसेस के गुणन के रूप में लागू किया जाता है)। इसलिए स्पाइकिंग नेटवर्क एक विरल एन्कोडिंग योजना का उपयोग करते हैं, जिसका अर्थ है कि किसी भी समय न्यूरॉन्स का केवल एक छोटा अंश सक्रिय है।

अब, स्पार्स स्पाइक-आधारित एन्कोडिंग और इवेंट-चालित ऑपरेशन, न्यूरोमोर्फिक चिप्स नामक स्पाइक नेटवर्क के हार्डवेयर-आधारित कार्यान्वयन के लिए उपयुक्त हैं । उदाहरण के लिए, आईबीएम का ट्रू नोर्थ चिप 1 मिलियन न्यूरॉन्स और 256 मिलियन कनेक्शन का अनुकरण कर सकता है, जबकि औसतन केवल 100 mW की शक्ति का चित्रण करता है । यह वह जगह है परिमाण वर्तमान NVIDIA GPUs तुलना में अधिक कुशल। न्यूरोमोर्फिक चिप्स मेरे द्वारा उल्लिखित प्रशिक्षण समय / ऊर्जा व्यापार का समाधान हो सकता है।

इसके अलावा, memristors एक अपेक्षाकृत नया लेकिन बहुत आशाजनक विकास है। मूल रूप से, एक संस्मरण एक मौलिक सर्किट तत्व होता है जो एक अवरोधक के समान होता है, लेकिन वर्तमान की कुल राशि के लिए आनुपातिक रूप से चर प्रतिरोध के साथ, जो इसके पूरे जीवनकाल में गुजरता है। अनिवार्य रूप से, इसका मतलब है कि यह उस वर्तमान की मात्रा की "मेमोरी" बनाए रखता है जो इसके माध्यम से गुजरी है। संस्मरणों के रोमांचक संभावित अनुप्रयोगों में से एक हार्डवेयर में सिनेप्स को अत्यंत कुशलता से मॉडलिंग करना है।

सुदृढीकरण सीखने और विकास

मुझे लगता है कि ये ध्यान देने योग्य हैं क्योंकि वे गैर-हस्तांतरणीयता की समस्या के समाधान के लिए उम्मीदवारों का वादा कर रहे हैं। ये तंत्रिका नेटवर्क तक सीमित नहीं हैं - पुरस्कृत होने के नाते, आरएल और विकास सैद्धांतिक रूप से किसी भी कार्य के लिए एक सामान्य सेटिंग में लागू होते हैं जहां किसी एजेंट को प्राप्त करने के लिए इनाम या लक्ष्य को परिभाषित करना संभव है। यह आवश्यक रूप से करने के लिए तुच्छ नहीं है, लेकिन यह सामान्य त्रुटि-चालित दृष्टिकोण की तुलना में बहुत अधिक सामान्य है, जहां शिक्षण एजेंट अपने आउटपुट और जमीनी सच्चाई के बीच अंतर को कम करने की कोशिश करता है। यहां मुख्य बिंदु स्थानांतरण अधिगम के बारे में है: आदर्श रूप से, एक अलग कार्य के लिए एक प्रशिक्षित एजेंट को लागू करना लक्ष्य या इनाम को बदलने के रूप में सरल होना चाहिए (वे अभी तक उस स्तर पर काफी नहीं हैं, हालांकि ...)।


"सख्ती से अधिक शक्तिशाली", मास्स अपने 1996 के पेपर में लिखता है, हालांकि वह गणितीय कठोरता का दावा करता है और कंप्यूटिंग शक्ति को परिभाषित करने में विफल रहता है। इसके अलावा, 1996 में लिखा गया था जब सिग्मॉइड सक्रियण फ़ंक्शन लोकप्रिय थे, जो अब वे नहीं हैं, ठीक है क्योंकि वे बड़ी संख्या में परिदृश्यों के लिए मज़बूती से या सरलतम सक्रियण फ़ंक्शन के रूप में तेजी से नहीं मिलते हैं। मास केवल कागज में दो बार अभिसरण का उल्लेख करता है और यह इंगित नहीं करता है कि अभिसरण कैसे होता है, आगे मशीन सीखने के उद्देश्यों के संदर्भ में कंप्यूटिंग शक्ति की परिभाषा के अभाव को रेखांकित करता है।
फॉच्रिशियन

आरएल और विकास के बीच संबंध स्पष्ट नहीं है। क्या आप एक आनुवंशिक एल्गोरिथ्म और आरएल के कुछ संयोजन का उल्लेख कर रहे हैं? यदि हां, तो संदर्भ क्या है?
फौश्रीस्टियन

@FauChristian यदि आप पूरा पेपर नहीं पढ़ते हैं, तो कम्प्यूटेशनल क्षमता का विभाजन अमूर्त (दूसरे वाक्य) में प्रदान किया जाता है:In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
केंटोर्स्ट

@FauChristian सिग्मॉइड सक्रियण अभी भी बहुत जीवित हैं और लात मार रहे हैं। उदाहरण के लिए, LSTM गेट्स के लिए सिग्मॉइड एक्टिवाइटों का उपयोग करते हैं, सॉफ्टमैक्स (सामान्यीकृत सिग्मोइड्स) अभी भी हमारे पास मल्टी-क्लास वर्गीकरण के लिए सबसे अच्छी बात है, आदि "सरल" सक्रियताएं आवश्यक रूप से बेहतर नहीं हैं - मूल ReLU ( max(0, x)) बहुत खतरे में है। x < 0मृत न्यूरॉन्स में जिसके परिणामस्वरूप के लिए अटक रही है । किसी भी दर पर, बिंदु स्पाइकिंग नेट की कम्प्यूटेशनल शक्ति और बिजली की खपत के संदर्भ में उनके अल्ट्रा-कुशल हार्डवेयर कार्यान्वयन के बारे में है।
छावनी

@FauChristian मैं RL और विकासवाद के बीच समानताएं नहीं खींच रहा हूँ। मैं उन्हें एक निश्चित प्रकार की अक्षमता को संबोधित करने के लिए आशाजनक दृष्टिकोणों के उदाहरण के रूप में दे रहा हूं, अर्थात् आपके पास प्रत्येक व्यक्तिगत समस्या के लिए एक समाधान (यह एक एनएन या कुछ और होना चाहिए)। आदर्श रूप से, आपको एक जेनेरिक सॉल्वर को डिज़ाइन करने में सक्षम होना चाहिए जो स्वचालित रूप से उच्च स्तर के लक्ष्य पर आधारित विशेष समस्या के लिए आरएल और / या विकास द्वारा ट्यून किया जाता है।
छावनी

1

तंत्रिका जाल की जगह

नए एल्गोरिदम मौजूद हो सकते हैं जिनमें तंत्रिका जाल को बदलने की क्षमता है। हालांकि, तंत्रिका जाल की एक विशेषता यह है कि वे सरल तत्वों को रोजगार देते हैं, जिनमें से प्रत्येक ज्यामितीय पैटर्न में कंप्यूटिंग संसाधनों पर कम मांग है।

डीएसपी उपकरणों या अन्य समानांतर कंप्यूटिंग हार्डवेयर की गणना करके कृत्रिम न्यूरॉन्स समानांतर (सीपीयू समय साझा करने या लूपिंग के बिना) में चलाए जा सकते हैं। कई न्यूरॉन्स अनिवार्य रूप से एक जैसे होते हैं इस प्रकार एक मजबूत लाभ है।

हम क्या जगह लेंगे?

जब हम तंत्रिका जाल के लिए एल्गोरिथम प्रतिस्थापन पर विचार करते हैं, तो हम मानते हैं कि तंत्रिका जाल डिजाइन एक एल्गोरिथ्म है। यह नहीं।

एक तंत्रिका जाल एक वास्तविक समय सर्किट पर परिवर्तित करने के लिए एक दृष्टिकोण है जो कि इष्टतम क्या है, इसके कुछ फॉर्मूलेशन के आधार पर आउटपुट में इनपुट के एक nonlinear परिवर्तन करने के लिए है। इस तरह का सूत्रीकरण कुछ परिभाषित आदर्श से त्रुटि या असमानता को मापने का न्यूनतम हो सकता है। यह कल्याण का एक उपाय हो सकता है जिसे अधिकतम किया जाना चाहिए।

किसी भी नेटवर्क व्यवहार के लिए फिटनेस निर्धारण का स्रोत आंतरिक हो सकता है। हम उस अप्रशिक्षित शिक्षा को कहते हैं। यह बाहरी हो सकता है, जिसे हम वांछित आउटपुट मानों के रूप में इनपुट वैक्टर के साथ युग्मित होने पर बाहरी फिटनेस जानकारी को हम पर्यवेक्षित कहते हैं, जिसे हम लेबल कहते हैं।

स्वास्थ्य भी बाह्य रूप से एक अदिश या वेक्टर के रूप में उत्पन्न हो सकता है जो इनपुट डेटा के साथ युग्मित नहीं होता है, बल्कि वास्तविक समय होता है, जिसे हम सुदृढीकरण कहते हैं। ऐसे में लर्निंग-एल्गोरिदम सीखने की आवश्यकता होती है। नेट व्यवहार संबंधी फिटनेस का वैकल्पिक रूप से सिस्टम के भीतर अन्य जालों द्वारा मूल्यांकन किया जा सकता है, स्टैक्ड नेट्स या अन्य कॉन्फ़िगरेशन जैसे कि लाप्लासियन पदानुक्रमों के मामले में।

एक बार गणितीय और प्रक्रिया डिज़ाइनों के चयन के बाद एल्गोरिदम का चयन तुलनात्मक बुद्धिमत्ता से बहुत कम होता है। एल्गोरिथ्म डिजाइन कंप्यूटिंग संसाधनों के लिए मांगों को कम करने और समय की आवश्यकताओं को कम करने से अधिक सीधे संबंधित है। यह न्यूनतमकरण हार्डवेयर और ऑपरेटिंग सिस्टम पर निर्भर है।

क्या एक प्रतिस्थापित संकेत है?

ज़रूर। यह बेहतर होगा यदि नेटवर्क स्तनधारी न्यूरॉन्स की तरह अधिक थे।

  • सक्रियता का प्रभाव
  • कनेक्शन पैटर्न की विषमता
  • मेटा-अनुकूलन का समर्थन करने के लिए डिजाइन की प्लास्टिसिटी
  • क्षेत्रीय सिग्नलिंग के कई आयामों द्वारा शासित

रीजनल सिग्नलिंग से मतलब सिनाप्सेस के सिग्नल ट्रांसमिशन से परे कई रासायनिक संकेतों से है।

हम स्तनधारी न्यूरोलॉजी से परे जाने पर भी विचार कर सकते हैं।

  • पैरामीट्रिक और परिकल्पना-आधारित शिक्षा का संयोजन
  • जब रोगाणु डीएनए पास करते हैं तो फॉर्म का सीखना

तंत्रिका शुद्ध दक्षता

दक्षता को कुछ सार्वभौमिक पैमाने में मात्राबद्ध नहीं किया जा सकता क्योंकि तापमान को केल्विन में डिग्री किया जा सकता है। दक्षता को केवल कुछ सैद्धांतिक आदर्श पर कुछ मापा मूल्य के भाग के रूप में मात्राबद्ध किया जा सकता है। ध्यान दें कि यह एक आदर्श है, हर में नहीं। थर्मोडायनामिक इंजनों में, वह आदर्श ऊर्जा इनपुट की दर है, जिसे कभी भी पूरी तरह से आउटपुट में स्थानांतरित नहीं किया जा सकता है।

इसी तरह, शून्य समय में तंत्रिका जाल कभी नहीं सीख सकते हैं। एक तंत्रिका जाल उत्पादन में या तो मनमाने ढंग से लंबे समय तक शून्य त्रुटि प्राप्त नहीं कर सकता है। इसलिए जानकारी कुछ मायनों में ऊर्जा की तरह है, डिजिटल स्वचालन के दौरान बेल लेबोरेटरीज के क्लाउड शैनन द्वारा जांच की गई अवधारणा, और सूचना एन्ट्रापी और थर्मोडायनामिक एन्ट्रॉपी के बीच संबंध अब सैद्धांतिक भौतिकी का एक महत्वपूर्ण हिस्सा है।

कोई बुरी शिक्षा दक्षता या अच्छी शिक्षण दक्षता नहीं हो सकती है। यदि हम तार्किक और वैज्ञानिक शब्दों में सोचना चाहते हैं, तो न तो खराब प्रदर्शन हो सकता है और न ही अच्छा प्रदर्शन हो सकता है - प्रदर्शन परिदृश्यों के बहुत विशिष्ट सेट के लिए कुछ सिस्टम कॉन्फ़िगरेशन के संबंध में केवल कुछ सिस्टम कॉन्फ़िगरेशन के सापेक्ष सुधार।

इसलिए, दो हार्डवेयर, ऑपरेटिंग सिस्टम और सॉफ्टवेयर कॉन्फ़िगरेशन के एक स्पष्ट विनिर्देश के बिना और रिश्तेदार मूल्यांकन के लिए उपयोग किए जाने वाले एक पूरी तरह से परिभाषित परीक्षण सूट, दक्षता अर्थहीन है।


1

हमें उस मोर्चे पर कुछ आशा है। अब तक हमारे पास J.Hinton द्वारा कैप्सूल नेटवर्क हैं जो 'स्क्वैश' फ़ंक्शन नामक एक अलग गैर-रेखीय सक्रियण का उपयोग करता है।

  1. हिंट सीएनएन में अधिकतम-पूलिंग को एक 'बड़ी गलती' कहते हैं, क्योंकि सीएनएन केवल उनके बीच सापेक्ष अभिविन्यास के बजाय एक छवि में उपस्थिति वस्तुओं के लिए देखता है। इसलिए वे अनुवाद संबंधी जानकारी हासिल करने की कोशिश करते हुए स्थानिक जानकारी खो देते हैं।
  2. तंत्रिका जाल के निश्चित संबंध होते हैं, जबकि एक कैप्सूल नेटवर्क में एक कैप्सूल 'तय' करता है कि उसके कैप्सूल के दौरान अन्य कैप्सूल को किस तरह से सक्रियण पास करना है। इसे 'रूटिंग' कहा जाता है।
  3. तंत्रिका जाल में हर न्यूरॉन की सक्रियता एक अदिश राशि है। जबकि कैप्सूल की सक्रियता एक वेक्टर है जो किसी चित्र में किसी ऑब्जेक्ट के पोज़ और ओरिएंटेशन को कैप्चर करता है।
  4. सीएनएन को मानव दृश्य प्रणाली के खराब प्रतिनिधित्व के लिए माना जाता है। मानव दृश्य प्रणाली से मेरा मतलब है आँखें और मस्तिष्क / अनुभूति एक साथ। हम किसी भी मुद्रा से स्टैचू ऑफ़ लिबर्टी की पहचान कर सकते हैं, भले ही हमने इसे एक मुद्रा से देखा हो। अधिकांश मामलों पर सीएनएन अलग-अलग स्थिति और अभिविन्यास में एक ही वस्तु का पता नहीं लगा सकता है।

कैप्सूल नेटवर्क में खुद कुछ कमियां हैं। तो तंत्रिका जाल से परे देखने की दिशा में काम किया गया है। आप इस ब्लॉग को अच्छी समझ के लिए पढ़ सकते हैं इससे पहले कि आप जे.हिंटन द्वारा पेपर पढ़ें।


0

तंत्रिका नेटवर्क को बहुत सारे डेटा और प्रशिक्षण की आवश्यकता होती है। अधिकांश सारणीबद्ध प्रारूप डेटासेट के लिए निर्णय ट्री आधारित मॉडल का उपयोग करना बेहतर होता है। ज्यादातर समय, सरल मॉडल अच्छी सटीकता देने के लिए पर्याप्त हैं। हालांकि तंत्रिका नेटवर्क के पास समय की उनकी परीक्षा थी। गहरी शिक्षा क्रांति शुरू हुए केवल पाँच-छह साल हुए हैं, इसलिए हम अभी भी गहरी शिक्षा की वास्तविक क्षमता को नहीं जानते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.