जवाबों:
यह पीछे की ओर जा रहा है, लेकिन यह तर्कों के तर्क का अनुसरण करता है।
दक्षता के संदर्भ में, मैं शास्त्रीय तंत्रिका नेटवर्क के साथ कुछ प्रमुख समस्याएं देख सकता हूं।
बड़े तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए बहुत अधिक डेटा की आवश्यकता होती है । राशि नेटवर्क के आकार और कार्य की जटिलता के आधार पर भिन्न हो सकती है, लेकिन अंगूठे के नियम के रूप में यह आमतौर पर भार की संख्या के लिए आनुपातिक होता है। कुछ पर्यवेक्षित शिक्षण कार्यों के लिए, बस पर्याप्त उच्च-गुणवत्ता वाला लेबल डेटा नहीं है। विशेष प्रशिक्षण डेटा की बड़ी मात्रा में संग्रह करने में महीनों या साल भी लग सकते हैं, और लेबलिंग बोझिल और अविश्वसनीय हो सकती है। यह डेटा वृद्धि द्वारा आंशिक रूप से कम किया जा सकता है, जिसका अर्थ है कि आपके पास पहले से मौजूद अधिक उदाहरणों का "संश्लेषण" करना, लेकिन यह एक रामबाण नहीं है।
सीखने की दर आमतौर पर बहुत छोटी है, इसलिए प्रशिक्षण प्रगति धीमी है। एक बड़े मॉडल को डेस्कटॉप सीपीयू पर प्रशिक्षण के लिए सप्ताह लग सकते हैं, एक GPU क्लस्टर का उपयोग करके दो घंटे में प्रशिक्षित किया जा सकता है, जो कई किलोवाट बिजली की खपत करता है। प्रशिक्षण प्रक्रिया की प्रकृति के कारण यह एक मौलिक व्यापार है। कहा कि, GPUs तेजी से कुशल हो रहे हैं - उदाहरण के लिए, नया nVidia Volta GPU आर्किटेक्चर 300 W से कम खपत करते समय 15.7 TFLOPs के लिए अनुमति देता है।
अभी, वस्तुतः हर अलग समस्या के लिए एक कस्टम न्यूरल नेटवर्क की आवश्यकता होती है, जिसे डिजाइन, प्रशिक्षित और तैनात किया जाता है। जबकि समाधान अक्सर काम करता है, यह उस समस्या में बंद है। उदाहरण के लिए, अल्फा गो में शानदार है, लेकिन यह कार चलाने या संगीत की सिफारिशें प्रदान करने में निराशाजनक होगा - यह ऐसे कार्यों के लिए डिज़ाइन नहीं किया गया था। यह अतिरेक अतिरेक मेरे विचार में तंत्रिका नेटवर्क का एक बड़ा दोष है, और यह सामान्य रूप से तंत्रिका नेटवर्क अनुसंधान की प्रगति के लिए एक प्रमुख बाधा भी है। एक संपूर्ण अनुसंधान क्षेत्र है जिसे ट्रांसफर लर्निंग कहा जाता हैजो एक कार्य के लिए प्रशिक्षित नेटवर्क को किसी अलग कार्य के लिए लागू करने के तरीकों का पता लगाता है। अक्सर यह इस तथ्य से संबंधित है कि दूसरे कार्य पर एक नेटवर्क को खरोंच से प्रशिक्षित करने के लिए पर्याप्त डेटा नहीं हो सकता है, इसलिए कुछ अतिरिक्त ट्यूनिंग के साथ पूर्व-प्रशिक्षित मॉडल का उपयोग करने में सक्षम होना बहुत आकर्षक है।
प्रश्न का पहला भाग अधिक पेचीदा है। विशुद्ध रूप से सांख्यिकीय मॉडल को छोड़कर, मैंने मशीन सीखने के लिए कोई प्रमुख दृष्टिकोण नहीं देखा है जो तंत्रिका नेटवर्क से मौलिक रूप से अलग हैं । हालांकि, कुछ दिलचस्प घटनाक्रम हैं जो ध्यान देने योग्य हैं क्योंकि वे उपरोक्त कुछ अक्षमताओं को संबोधित करते हैं।
पहले थोड़ी पृष्ठभूमि।
कम्प्यूटेशनल पॉवर के मामले में न्यूरल नेटवर्क के स्पाइकिंग में काफी संभावनाएं हैं। वास्तव में, यह साबित हो गया है कि वे सिग्माइड सक्रियण वाले शास्त्रीय तंत्रिका नेटवर्क की तुलना में कड़ाई से अधिक शक्तिशाली हैं ।
इसके अलावा, तंत्रिका नेटवर्क के स्पाइकिंग में समय का आंतरिक आभास होता है - ऐसा कुछ जो शास्त्रीय नेटवर्क के लिए एक बड़ी बाधा रहा है। इतना ही नहीं, लेकिन स्पिकिंग नेटवर्क ईवेंट-चालित होते हैं , जिसका अर्थ है कि न्यूरॉन्स केवल तभी संचालित होते हैं जब एक आने वाला संकेत होता है। यह शास्त्रीय नेटवर्क के विपरीत है, जहां प्रत्येक न्यूरॉन का मूल्यांकन उसके इनपुट की परवाह किए बिना किया जाता है (फिर से, यह मूल्यांकन प्रक्रिया का एक परिणाम है आमतौर पर दो घने मेट्रिसेस के गुणन के रूप में लागू किया जाता है)। इसलिए स्पाइकिंग नेटवर्क एक विरल एन्कोडिंग योजना का उपयोग करते हैं, जिसका अर्थ है कि किसी भी समय न्यूरॉन्स का केवल एक छोटा अंश सक्रिय है।
अब, स्पार्स स्पाइक-आधारित एन्कोडिंग और इवेंट-चालित ऑपरेशन, न्यूरोमोर्फिक चिप्स नामक स्पाइक नेटवर्क के हार्डवेयर-आधारित कार्यान्वयन के लिए उपयुक्त हैं । उदाहरण के लिए, आईबीएम का ट्रू नोर्थ चिप 1 मिलियन न्यूरॉन्स और 256 मिलियन कनेक्शन का अनुकरण कर सकता है, जबकि औसतन केवल 100 mW की शक्ति का चित्रण करता है । यह वह जगह है परिमाण वर्तमान NVIDIA GPUs तुलना में अधिक कुशल। न्यूरोमोर्फिक चिप्स मेरे द्वारा उल्लिखित प्रशिक्षण समय / ऊर्जा व्यापार का समाधान हो सकता है।
इसके अलावा, memristors एक अपेक्षाकृत नया लेकिन बहुत आशाजनक विकास है। मूल रूप से, एक संस्मरण एक मौलिक सर्किट तत्व होता है जो एक अवरोधक के समान होता है, लेकिन वर्तमान की कुल राशि के लिए आनुपातिक रूप से चर प्रतिरोध के साथ, जो इसके पूरे जीवनकाल में गुजरता है। अनिवार्य रूप से, इसका मतलब है कि यह उस वर्तमान की मात्रा की "मेमोरी" बनाए रखता है जो इसके माध्यम से गुजरी है। संस्मरणों के रोमांचक संभावित अनुप्रयोगों में से एक हार्डवेयर में सिनेप्स को अत्यंत कुशलता से मॉडलिंग करना है।
मुझे लगता है कि ये ध्यान देने योग्य हैं क्योंकि वे गैर-हस्तांतरणीयता की समस्या के समाधान के लिए उम्मीदवारों का वादा कर रहे हैं। ये तंत्रिका नेटवर्क तक सीमित नहीं हैं - पुरस्कृत होने के नाते, आरएल और विकास सैद्धांतिक रूप से किसी भी कार्य के लिए एक सामान्य सेटिंग में लागू होते हैं जहां किसी एजेंट को प्राप्त करने के लिए इनाम या लक्ष्य को परिभाषित करना संभव है। यह आवश्यक रूप से करने के लिए तुच्छ नहीं है, लेकिन यह सामान्य त्रुटि-चालित दृष्टिकोण की तुलना में बहुत अधिक सामान्य है, जहां शिक्षण एजेंट अपने आउटपुट और जमीनी सच्चाई के बीच अंतर को कम करने की कोशिश करता है। यहां मुख्य बिंदु स्थानांतरण अधिगम के बारे में है: आदर्श रूप से, एक अलग कार्य के लिए एक प्रशिक्षित एजेंट को लागू करना लक्ष्य या इनाम को बदलने के रूप में सरल होना चाहिए (वे अभी तक उस स्तर पर काफी नहीं हैं, हालांकि ...)।
In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
max(0, x)
) बहुत खतरे में है। x < 0
मृत न्यूरॉन्स में जिसके परिणामस्वरूप के लिए अटक रही है । किसी भी दर पर, बिंदु स्पाइकिंग नेट की कम्प्यूटेशनल शक्ति और बिजली की खपत के संदर्भ में उनके अल्ट्रा-कुशल हार्डवेयर कार्यान्वयन के बारे में है।
तंत्रिका जाल की जगह
नए एल्गोरिदम मौजूद हो सकते हैं जिनमें तंत्रिका जाल को बदलने की क्षमता है। हालांकि, तंत्रिका जाल की एक विशेषता यह है कि वे सरल तत्वों को रोजगार देते हैं, जिनमें से प्रत्येक ज्यामितीय पैटर्न में कंप्यूटिंग संसाधनों पर कम मांग है।
डीएसपी उपकरणों या अन्य समानांतर कंप्यूटिंग हार्डवेयर की गणना करके कृत्रिम न्यूरॉन्स समानांतर (सीपीयू समय साझा करने या लूपिंग के बिना) में चलाए जा सकते हैं। कई न्यूरॉन्स अनिवार्य रूप से एक जैसे होते हैं इस प्रकार एक मजबूत लाभ है।
हम क्या जगह लेंगे?
जब हम तंत्रिका जाल के लिए एल्गोरिथम प्रतिस्थापन पर विचार करते हैं, तो हम मानते हैं कि तंत्रिका जाल डिजाइन एक एल्गोरिथ्म है। यह नहीं।
एक तंत्रिका जाल एक वास्तविक समय सर्किट पर परिवर्तित करने के लिए एक दृष्टिकोण है जो कि इष्टतम क्या है, इसके कुछ फॉर्मूलेशन के आधार पर आउटपुट में इनपुट के एक nonlinear परिवर्तन करने के लिए है। इस तरह का सूत्रीकरण कुछ परिभाषित आदर्श से त्रुटि या असमानता को मापने का न्यूनतम हो सकता है। यह कल्याण का एक उपाय हो सकता है जिसे अधिकतम किया जाना चाहिए।
किसी भी नेटवर्क व्यवहार के लिए फिटनेस निर्धारण का स्रोत आंतरिक हो सकता है। हम उस अप्रशिक्षित शिक्षा को कहते हैं। यह बाहरी हो सकता है, जिसे हम वांछित आउटपुट मानों के रूप में इनपुट वैक्टर के साथ युग्मित होने पर बाहरी फिटनेस जानकारी को हम पर्यवेक्षित कहते हैं, जिसे हम लेबल कहते हैं।
स्वास्थ्य भी बाह्य रूप से एक अदिश या वेक्टर के रूप में उत्पन्न हो सकता है जो इनपुट डेटा के साथ युग्मित नहीं होता है, बल्कि वास्तविक समय होता है, जिसे हम सुदृढीकरण कहते हैं। ऐसे में लर्निंग-एल्गोरिदम सीखने की आवश्यकता होती है। नेट व्यवहार संबंधी फिटनेस का वैकल्पिक रूप से सिस्टम के भीतर अन्य जालों द्वारा मूल्यांकन किया जा सकता है, स्टैक्ड नेट्स या अन्य कॉन्फ़िगरेशन जैसे कि लाप्लासियन पदानुक्रमों के मामले में।
एक बार गणितीय और प्रक्रिया डिज़ाइनों के चयन के बाद एल्गोरिदम का चयन तुलनात्मक बुद्धिमत्ता से बहुत कम होता है। एल्गोरिथ्म डिजाइन कंप्यूटिंग संसाधनों के लिए मांगों को कम करने और समय की आवश्यकताओं को कम करने से अधिक सीधे संबंधित है। यह न्यूनतमकरण हार्डवेयर और ऑपरेटिंग सिस्टम पर निर्भर है।
क्या एक प्रतिस्थापित संकेत है?
ज़रूर। यह बेहतर होगा यदि नेटवर्क स्तनधारी न्यूरॉन्स की तरह अधिक थे।
रीजनल सिग्नलिंग से मतलब सिनाप्सेस के सिग्नल ट्रांसमिशन से परे कई रासायनिक संकेतों से है।
हम स्तनधारी न्यूरोलॉजी से परे जाने पर भी विचार कर सकते हैं।
तंत्रिका शुद्ध दक्षता
दक्षता को कुछ सार्वभौमिक पैमाने में मात्राबद्ध नहीं किया जा सकता क्योंकि तापमान को केल्विन में डिग्री किया जा सकता है। दक्षता को केवल कुछ सैद्धांतिक आदर्श पर कुछ मापा मूल्य के भाग के रूप में मात्राबद्ध किया जा सकता है। ध्यान दें कि यह एक आदर्श है, हर में नहीं। थर्मोडायनामिक इंजनों में, वह आदर्श ऊर्जा इनपुट की दर है, जिसे कभी भी पूरी तरह से आउटपुट में स्थानांतरित नहीं किया जा सकता है।
इसी तरह, शून्य समय में तंत्रिका जाल कभी नहीं सीख सकते हैं। एक तंत्रिका जाल उत्पादन में या तो मनमाने ढंग से लंबे समय तक शून्य त्रुटि प्राप्त नहीं कर सकता है। इसलिए जानकारी कुछ मायनों में ऊर्जा की तरह है, डिजिटल स्वचालन के दौरान बेल लेबोरेटरीज के क्लाउड शैनन द्वारा जांच की गई अवधारणा, और सूचना एन्ट्रापी और थर्मोडायनामिक एन्ट्रॉपी के बीच संबंध अब सैद्धांतिक भौतिकी का एक महत्वपूर्ण हिस्सा है।
कोई बुरी शिक्षा दक्षता या अच्छी शिक्षण दक्षता नहीं हो सकती है। यदि हम तार्किक और वैज्ञानिक शब्दों में सोचना चाहते हैं, तो न तो खराब प्रदर्शन हो सकता है और न ही अच्छा प्रदर्शन हो सकता है - प्रदर्शन परिदृश्यों के बहुत विशिष्ट सेट के लिए कुछ सिस्टम कॉन्फ़िगरेशन के संबंध में केवल कुछ सिस्टम कॉन्फ़िगरेशन के सापेक्ष सुधार।
इसलिए, दो हार्डवेयर, ऑपरेटिंग सिस्टम और सॉफ्टवेयर कॉन्फ़िगरेशन के एक स्पष्ट विनिर्देश के बिना और रिश्तेदार मूल्यांकन के लिए उपयोग किए जाने वाले एक पूरी तरह से परिभाषित परीक्षण सूट, दक्षता अर्थहीन है।
हमें उस मोर्चे पर कुछ आशा है। अब तक हमारे पास J.Hinton द्वारा कैप्सूल नेटवर्क हैं जो 'स्क्वैश' फ़ंक्शन नामक एक अलग गैर-रेखीय सक्रियण का उपयोग करता है।
कैप्सूल नेटवर्क में खुद कुछ कमियां हैं। तो तंत्रिका जाल से परे देखने की दिशा में काम किया गया है। आप इस ब्लॉग को अच्छी समझ के लिए पढ़ सकते हैं इससे पहले कि आप जे.हिंटन द्वारा पेपर पढ़ें।
तंत्रिका नेटवर्क को बहुत सारे डेटा और प्रशिक्षण की आवश्यकता होती है। अधिकांश सारणीबद्ध प्रारूप डेटासेट के लिए निर्णय ट्री आधारित मॉडल का उपयोग करना बेहतर होता है। ज्यादातर समय, सरल मॉडल अच्छी सटीकता देने के लिए पर्याप्त हैं। हालांकि तंत्रिका नेटवर्क के पास समय की उनकी परीक्षा थी। गहरी शिक्षा क्रांति शुरू हुए केवल पाँच-छह साल हुए हैं, इसलिए हम अभी भी गहरी शिक्षा की वास्तविक क्षमता को नहीं जानते हैं।