1) परत 1 में C1 में 6 फीचर मैप हैं, क्या इसका मतलब यह है कि छह दृढ़ गुठली हैं? प्रत्येक दीक्षांत कर्नेल का उपयोग इनपुट के आधार पर एक सुविधा मानचित्र बनाने के लिए किया जाता है।
6 कन्वेन्शनल कर्नेल हैं और प्रत्येक का उपयोग इनपुट के आधार पर एक फीचर मैप बनाने के लिए किया जाता है। यह कहने का एक और तरीका यह है कि वजन के 6 फिल्टर या 3 डी सेट हैं जिन्हें मैं सिर्फ वजन कहूंगा। यह चित्र क्या दिखाता है, यह शायद यह स्पष्ट करने के लिए होना चाहिए कि आम तौर पर छवियों में 3 चैनल होते हैं, लाल, हरा और नीला। तो C1 से इनपुट से मैप करने वाले वेट केवल 5x5 के आकार / आयाम 3x5x5 के हैं। समान 3 आयामी वज़न, या कर्नेल, पूरे 3x32x32 छवि में C1 में 2 आयामी फ़ीचर मैप बनाने के लिए लगाए जाते हैं। इस उदाहरण में 6 कर्नेल (प्रत्येक 3x5x5) हैं, इसलिए इस उदाहरण में 6 फीचर मैप्स (प्रत्येक 28x28 चूंकि स्ट्राइड 1 है और पैडिंग शून्य है) बनाता है, जिनमें से प्रत्येक इनपुट पर 3x5x5 कर्नेल लगाने का परिणाम है।
2) S1 इन लेयर 1 में 6 फीचर मैप्स हैं, लेयर 2 में C2 में 16 फीचर मैप्स हैं। S1 में 6 फीचर मानचित्रों के आधार पर इन 16 फ़ीचर मानचित्रों को प्राप्त करने के लिए प्रक्रिया कैसी दिखती है?
अब वही काम करें जो हमने लेयर एक में किया था, लेकिन इसे लेयर 2 के लिए करें, इस समय को छोड़कर S1 में फीचर मैप्स / फिल्टर्स की संख्या के लिए चैनलों की संख्या 3 (RGB) नहीं है, 6 है। आकार / आयाम 6x5x5 में से प्रत्येक में अब 16 अद्वितीय गुठली हैं। प्रत्येक परत 2 कर्नेल को S2 में C2 में 2 डी फीचर मैप बनाने के लिए लागू किया जाता है। यह परत 2 में प्रत्येक अद्वितीय कर्नेल के लिए 16 बार किया जाता है, परत 2 में 16 फीचर मैप्स उत्पन्न करने के लिए (प्रत्येक 10x10 चूंकि स्ट्राइड 1 है और पैडिंग शून्य है)
स्रोत: http://cs231n.github.io/convolutional-networks/