अच्छा प्रश्न: ध्यान दें कि डीप लर्निंग के क्षेत्र में चीजें हमेशा उतनी अच्छी तरह से कटी नहीं होती हैं और सांख्यिकीय लर्निंग में भी स्पष्ट रूप से परिभाषित होती हैं (क्योंकि वहाँ बहुत प्रचार है), इसलिए गणित के रूप में कठोर के रूप में परिभाषाएं खोजने की उम्मीद न करें। वैसे भी, मल्टीलेयर परसेप्ट्रान एक विशिष्ट फीड-फ़ॉर न्यूरल नेटवर्क आर्किटेक्चर है, जहाँ आप कई पूर्ण-कनेक्टेड लेयर्स (इसलिए, कोई भी कन्वेक्शन लेयर्स) को ढेर नहीं करते हैं, जहाँ छिपी हुई इकाइयों के सक्रियण कार्य अक्सर एक सिग्मॉइड या टैन्ह होते हैं। आउटपुट परत के नोड्स में आमतौर पर सॉफ्टमैक्स सक्रियण कार्य (वर्गीकरण के लिए) या रैखिक सक्रियण फ़ंक्शन (प्रतिगमन के लिए) होते हैं। विशिष्ट MLP आर्किटेक्चर "गहरे" नहीं हैं, अर्थात, हमारे पास कई छिपी हुई परतें नहीं हैं। आप आमतौर पर कहते हैं, 1 से 5 छिपी हुई परतें। ये तंत्रिका नेटवर्क '80 में आम थे,
अब, डीप न्यूरल नेटवर्क के साथ हमारा मतलब एक नेटवर्क है जिसमें कई लेयर्स हैं (19, 22, 152, ... यहां तक कि > 1200 , हालांकि यह माना जाता है कि यह बहुत ही चरम है)। ध्यान दें कि
- हमने नेटवर्क की वास्तुकला को निर्दिष्ट नहीं किया है, इसलिए यह फ़ीड-फ़ॉरवर्ड, आवर्तक, आदि हो सकता है।
- हमने कनेक्शनों की प्रकृति को निर्दिष्ट नहीं किया है, इसलिए हम पूरी तरह से जुड़े हुए परतें, दृढ़ परतें, पुनरावृत्ति आदि कर सकते हैं।
- "कई" परतें माना जाता है कि कठोर परिभाषा नहीं है।
⇒32×32+32×10=1344⇒11584वजन। यह आज के मानकों से एक घटा हुआ एनएन है। हालाँकि, जब आप इसे बड़े पैमाने पर डेटा सेट पर प्रशिक्षित करने के लिए जाते हैं, तो आप पाते हैं कि अभिसरण दर बहुत कम हो गई है। यह न केवल वजन की बड़ी संख्या के कारण है, बल्कि लुप्त हो रही ढाल की समस्या के लिए है - बैक-प्रसार प्रत्येक परतों में त्रुटियों को गुणा करके नुकसान फ़ंक्शन के ग्रेडिएंट की गणना करता है, और ये छोटी संख्याएं घातीय रूप से छोटी और अधिक परतें बन जाती हैं जो आप जोड़ते हैं। इस प्रकार, त्रुटियां आपके नेटवर्क को बहुत धीरे-धीरे प्रसारित (या प्रचारित) नहीं करती हैं, और ऐसा लगता है कि प्रशिक्षण सेट पर त्रुटि प्रशिक्षण के युगों के साथ कम हो जाती है।
और यह एक छोटा नेटवर्क था - अलेक्सांटे नामक गहरे संवेदी तंत्रिका नेटवर्क में 5 परतें थीं लेकिन 60 मिलियन वज़न थे, और यह आज के मानकों से छोटा माना जाता है! जब आपके पास इतने वजन होते हैं, तो कोई भी डेटा सेट "छोटा" होता है - यहां तक कि इमेजनेट, वर्गीकरण के लिए उपयोग की जाने वाली छवियों का एक डेटा सेट, "केवल" में लगभग 1 मिलियन छवियां होती हैं, इस प्रकार उथले नेटवर्क के मुकाबले ओवरफिटिंग का जोखिम बहुत बड़ा है।
डीप लर्निंग को इस प्रकार समझा जा सकता है कि उपकरणों का एक सेट जो तंत्रिका नेटवर्क को बड़ी संख्या में परतों और भार के साथ प्रशिक्षित करने के लिए उपयोग किया जाता है, कम सामान्यीकरण त्रुटि को प्राप्त करता है। यह कार्य छोटे नेटवर्क की तुलना में अधिक चुनौतियां पेश करता है। आप निश्चित रूप से एक डीप मल्टीलेयर पर्सेप्ट्रॉन का निर्माण कर सकते हैं और इसे प्रशिक्षित कर सकते हैं - लेकिन (इस तथ्य के अलावा कि यह कई कार्यों के लिए इष्टतम आर्किटेक्चर नहीं है जहां आज डीप लर्निंग का उपयोग किया जाता है) आप शायद उन उपकरणों का उपयोग करेंगे जो उपयोग किए जाने वाले नेटवर्क से अलग हैं। "उथले"। उदाहरण के लिए, आप sigmoid या tanh के लिए ReLU सक्रियण इकाई पसंद कर सकते हैं, क्योंकि वे लुप्त हो रही क्रमिक समस्या को नरम करते हैं।