मुझे नहीं लगता कि आपके प्रश्नों का कोई निश्चित उत्तर है। लेकिन मुझे लगता है कि पारंपरिक ज्ञान निम्नलिखित है:
मूल रूप से, जैसा कि एक लर्निंग एल्गोरिथम की परिकल्पना स्थान बढ़ता है, एल्गोरिथ्म अमीर और समृद्ध संरचनाओं को सीख सकता है। लेकिन एक ही समय में, एल्गोरिथ्म ओवरफिटिंग के लिए अधिक प्रवण हो जाता है और इसकी सामान्यीकरण त्रुटि बढ़ने की संभावना है।
तो आखिरकार, किसी भी डेटासेट के लिए, न्यूनतम मॉडल के साथ काम करना उचित है, जिसमें डेटा की वास्तविक संरचना सीखने की पर्याप्त क्षमता है। लेकिन यह बहुत हाथ से लहराती सलाह है, क्योंकि आमतौर पर "डेटा की वास्तविक संरचना" अज्ञात है, और अक्सर यहां तक कि उम्मीदवार मॉडल की क्षमताओं को केवल अस्पष्ट रूप से समझा जाता है।
जब तंत्रिका नेटवर्क की बात आती है, तो परिकल्पना स्थान का आकार मापदंडों की संख्या से नियंत्रित होता है। और ऐसा लगता है कि मापदंडों की एक निश्चित संख्या (या परिमाण के एक निश्चित क्रम) के लिए, गहराई में जाने से मॉडल अमीर संरचनाओं (जैसे यह कागज ) पर कब्जा करने की अनुमति देता है ।
यह आंशिक रूप से कम मापदंडों के साथ गहरे मॉडल की सफलता की व्याख्या कर सकता है: VGGNet (2014 से) में ~ 140M मापदंडों के साथ 16 परतें हैं, जबकि ResNet (2015 से) ने इसे 152 परतों के साथ हराया लेकिन केवल ~ 2M पैरामीटर
(एक पक्ष के रूप में, छोटे मॉडल कम्प्यूटेशनल रूप से प्रशिक्षण के लिए आसान हो सकते हैं - लेकिन मुझे नहीं लगता कि यह अपने आप में एक प्रमुख कारक है - क्योंकि गहराई वास्तव में प्रशिक्षण को जटिल करती है)
ध्यान दें कि यह प्रवृत्ति (अधिक गहराई, कम पैरामीटर) ज्यादातर दृष्टि-संबंधी कार्यों और दृढ़ नेटवर्क में मौजूद है, और यह एक डोमेन-विशिष्ट स्पष्टीकरण के लिए कहता है। तो यहाँ एक और दृष्टिकोण है:
प्रत्येक "न्यूरॉन" एक संकेंद्रित परत में एक "ग्रहणशील क्षेत्र" होता है, जो कि उनके आउटपुट पर प्रभाव डालने वाले इनपुट का आकार और आकार होता है। सहजता से, प्रत्येक कर्नेल पास के इनपुट के बीच किसी प्रकार के संबंध को पकड़ लेता है। और छोटे गुठली (जो सामान्य और बेहतर हैं) में एक छोटा ग्रहणशील क्षेत्र होता है, इसलिए वे केवल स्थानीय संबंधों के बारे में जानकारी प्रदान कर सकते हैं।
लेकिन जैसा कि आप गहराई से जाते हैं, प्रत्येक न्यूरॉन का ग्रहणशील क्षेत्र कुछ पहले की परत के संबंध में बड़ा हो जाता है। इतनी गहरी परतें वैश्विक अर्थ संबंधी अर्थ और सार विवरण (वस्तुओं के संबंधों के संबंध ... वस्तुओं के संबंधों के साथ) प्रदान कर सकती हैं, जबकि केवल छोटी गुठली का उपयोग करते हुए (जो नेटवर्क के संबंधों को नियमित करता है, और इसे अभिसरण और सामान्य बनाने में मदद करता है)।
इसलिए कंप्यूटर विज़न में गहरे अवक्षेप नेटवर्क की उपयोगिता आंशिक रूप से छवियों और वीडियो की स्थानिक संरचना द्वारा स्पष्ट की जा सकती है। यह संभव है कि यह समय बताएगा कि विभिन्न प्रकार की समस्याओं के लिए, या गैर-प्रासंगिक आर्किटेक्चर के लिए, गहराई वास्तव में अच्छी तरह से काम नहीं करती है।