कृत्रिम तंत्रिका नेटवर्क एल्गोरिदम का एक वर्ग है जिसमें ग्राफ़ के आधार पर बहुत सारे विभिन्न प्रकार के एल्गोरिदम शामिल होते हैं, इसलिए मैं यहाँ विस्तार से नहीं बताऊंगा कि आपने क्या पूछा क्योंकि बहुत कहने के लिए बहुत कुछ है, क्योंकि कई प्रकार के एएनएन हैं।
पहले प्रकार के कृत्रिम तंत्रिका नेटवर्क, प्रसिद्ध मैककुलोच-पिट्स न्यूरॉन्स रैखिक थे , जिसका अर्थ है कि वे केवल रैखिक निर्णय की समस्याओं को हल कर सकते हैं (यानी, डेटासेट जो एक रेखा खींचकर रैखिक रूप से अलग हो सकते हैं )। समय के साथ, यह लीनियर न्यूरल नेटवर्क मॉडल Perceptron या Adaline के रूप में जाना जाता है (यह निर्भर करता है कि आप वेट अपडेट की गणना कैसे करते हैं)।
रैखिक तंत्रिका नेटवर्क सिर्फ एक द्विदलीय ग्राफ से बना होता है, जहां बाईं ओर के नोड इनपुट होते हैं और दाईं ओर आउटपुट नोड होते हैं। केवल इन नोड्स के बीच के किनारों का वजन सीखा जाता है (नोड्स सक्रियण सीमा को भी समायोजित किया जा सकता है लेकिन यह शायद ही कभी किया जाता है)।
उथले तंत्रिका नेटवर्क का आविष्कार होने पर एक बड़ा कदम उठाया गया था: केवल एक द्विदलीय ग्राफ होने के बजाय, हम एक 3पक्षीय ग्राफ का उपयोग करते हैं: इनपुट "परत", आउटपुट "परत", और उनके बीच एक "छिपी हुई परत" । छिपी हुई परत के लिए धन्यवाद, नेटवर्क अब गैर-रैखिक निर्णय ले सकता है, और विहित XOR जैसी समस्याओं को हल कर सकता है।
ध्यान दें कि "उथले" शब्द को पूर्वव्यापी रूप से गढ़ा गया था जब गहरे तंत्रिका नेटवर्क (जिसे एन-लेयर न्यूरल नेटवर्क भी कहा जाता था) का आविष्कार किया गया था। यह केवल एक छिपी हुई परत के साथ तंत्रिका नेटवर्क का विरोध करने के लिए है, जिसमें n तंत्रिका परतों के साथ गहरे तंत्रिका नेटवर्क हैं । जैसा कि आप अनुमान लगा सकते हैं, अधिक छिपी परतों का उपयोग करके अधिक जटिल डेटासेट पर निर्णय लेने की अनुमति मिलती है क्योंकि निर्णय को संशोधित करने के लिए अधिक परतें होती हैं (यानी, दूसरे शब्दों में आप अपनी निर्णय सीमा की गतिशीलता बढ़ा रहे हैं, जिससे ओवरफिटिंग हो सकती है)।
आप पूछ सकते हैं: पहले किसी ने बहुस्तरीय (गहरे) तंत्रिका नेटवर्क का उपयोग करने की कोशिश क्यों नहीं की? वास्तव में, उन्होंने 1975 में फुकुशिमा द्वारा कॉग्निट्रॉन और नियोकोग्रिट्रॉन के साथ किया था (जो वास्तव में एक दृढ़ तंत्रिका नेटवर्क है, लेकिन यह एक और कहानी है)। हालाँकि, मुद्दा यह था कि किसी को नहीं पता था कि ऐसे नेटवर्क को कुशलता से कैसे सीखा जाए, बड़ा मुद्दा है नियमितीकरण । Hinton के AutoEncoders ने रास्ता खोला और बाद में LeCun की रेक्टीफाइड लाइनर यूनिट्स ने अच्छे के लिए मुद्दा तय किया।
डीप बिलिफ़्स नेटवर्क्स (DBN) के बारे में क्या? वे सिर्फ बहुस्तरीय अर्ध-प्रतिबंधित बोल्ट्ज़मैन मशीनें हैं। तो वे गहरी तंत्रिका नेटवर्क का एक प्रकार है, लेकिन एक अलग बुनियादी नेटवर्क पैटर्न के साथ (यानी: परत, इस पैटर्न है कि दोहराया है है): में है कि वे कर रहे हैं बोल्ट्जमान मशीनों अन्य नेटवर्क से अलग हैं उत्पादक , जिसका अर्थ है कि वे आम तौर पर कर रहे हैं इसे पुन: उत्पन्न करने के लिए आपके डेटा से सीखने के लिए उपयोग किया जाता है (इसे "उत्पन्न"), जबकि सामान्य रूप से गहरे तंत्रिका नेटवर्क को अलग करने के लिए उपयोग किया जाता है आपके डेटा ("निर्णय सीमा" खींचकर)।
दूसरे शब्दों में, DNN आपके डेटासेट से किसी मूल्य को वर्गीकृत / भविष्यवाणी करने के लिए महान है, जबकि DBN एक दूषित डेटा को "रिपेयर" करने के लिए बहुत अच्छा है (जब मैं कहता हूं कि यह मरम्मत है, तो यह केवल दूषित डेटा से नहीं है, यह पूरी तरह से ठीक डेटा पर भी हो सकता है कि आप बस थोड़ा और अधिक स्टीरियोटाइप होने के लिए ठीक करना चाहते हैं जैसा कि एक और तंत्रिका नेटवर्क के साथ आसानी से पहचाना जा सकता है, जैसे कि हाथ से लिखे गए अंक)।
वास्तव में, बड़े करीने से संक्षेप में, आप कह सकते हैं कि AutoEncoders डीप विश्वास नेटवर्क का एक सरल रूप है। यहाँ चेहरों को पहचानने के लिए प्रशिक्षित DBN का एक उदाहरण है, लेकिन संख्याएँ नहीं हैं, संख्याएँ स्वतः ही फीकी पड़ जाती हैं (यह DBN का "फिक्सिंग" प्रभाव है):
तो अंत में, डीबीएन और डीएनएन विपरीत नहीं हैं: वे पूरक हैं। उदाहरण के लिए, आप हाथ से लिखे गए वर्णों को पहचानने के लिए एक प्रणाली की कल्पना कर सकते हैं जो किसी वर्ण की छवि को पहले डीबीएन में फीड करेगा ताकि इसे अधिक रूढ़िबद्ध बनाया जा सके और फिर एक डीएनएन को स्टीरियोटाइप की गई छवि को खिलाया जा सके जो बाद में छवि का प्रतिनिधित्व करने वाले चरित्र को आउटपुट करेगा।
एक अंतिम नोट: डीप बिलिफ़्न नेट, डीप बोल्ट्ज़मैन मशीनों के बहुत करीब हैं: डीप बोल्ट्ज़मैन मशीनें बोल्ट्ज़मैन मशीनों की परतों का उपयोग करती हैं (जो द्विदिश तंत्रिका नेटवर्क भी हैं, जिन्हें पुनरावर्ती तंत्रिका नेटवर्क भी कहा जाता है), जबकि डीप बेल्ज़्ज़मैन नेट सेमी-प्रतिबंधित बोल्ट्ज़मन मशीन (अर्ध-) का उपयोग करते हैं प्रतिबंधित का अर्थ है कि उन्हें यूनिडायरेक्शनल में बदल दिया जाता है, इस प्रकार यह नेटवर्क को सीखने के लिए बैकप्रॉपैगैनेशन का उपयोग करने की अनुमति देता है जो एक शानदार नेटवर्क सीखने की तुलना में अधिक कुशल है)। दोनों नेटवर्क एक ही उद्देश्य के लिए उपयोग किए जाते हैं (डेटासेट पुनर्जीवित करते हैं), लेकिन कम्प्यूटेशनल लागत अलग है (दीप बोल्ट्ज़मैन मशीनें अपने आवर्तक प्रकृति के कारण सीखने के लिए काफी अधिक महंगी हैं: यह वजन को "स्थिर" करना कठिन है)।
बोनस: कन्वेंशनल न्यूरल नेटवर्क्स (CNN) के बारे में, आपको बहुत सारे विरोधाभासी और भ्रमित करने वाले दावे मिलेंगे, और आमतौर पर आप पाएंगे कि वे केवल गहरे तंत्रिका नेटवर्क हैं। हालांकि, ऐसा लगता है कि सर्वसम्मति फुकुशिमा के नियोकोगिट्रॉन की मूल परिभाषा का उपयोग करने के लिए है: एक सीएनएन एक डीएनएन है जो सक्रियण से पहले एक दोष लगाकर विभिन्न पदानुक्रमित स्तरों पर विभिन्न विशेषताओं को निकालने के लिए मजबूर है (जो कि डीएनएन स्वाभाविक रूप से कर सकता है, लेकिन मजबूर नेटवर्क के विभिन्न परतों पर एक अलग कनवल्शन / एक्टिवेशन फंक्शन सेट करने से बेहतर परिणाम मिल सकता है, कम से कम यह CNN का दांव है):
और अंत में, आर्टिफिशियल इंटेलिजेंस की अधिक कठोर समयरेखा के लिए, यहां देखें ।