यह सवाल उबलता है "कैसे कनवल्शन लेयर्स बिल्कुल काम करती हैं।
मान लीजिए कि मेरे पास एक greyscale छवि है। तो छवि में एक चैनल है। पहली परत में, मैं फ़िल्टर और पैडिंग के साथ कनवल्शन लागू करता हूं । फिर मेरे पास कनवल्शन और फ़िल्टर के साथ एक और । मेरे पास कितने फ़ीचर मैप हैं?3 × 3 k 1 5 × 5 k 2
टाइप 1 कनवल्शन
पहली परत निष्पादित हो जाती है। उसके बाद, मेरे पास फ़ीचर मैप्स हैं (प्रत्येक फ़िल्टर के लिए एक)। उनमें से प्रत्येक का आकार । हर एक पिक्सेल को गद्देदार इनपुट छवि से पिक्सेल ले कर बनाया गया था ।
फिर दूसरी परत लागू हो जाती है। हर एक फिल्टर को अलग-अलग फ़ीचर मैप में अलग से लागू किया जाता है । यह सुविधा मानचित्रों में से प्रत्येक के लिए सुविधा मानचित्रों में परिणत होता है । इसलिए दूसरी लेयर के बाद फ़ीचर मैप हैं। प्रत्येक नए फ़ीचर मैप्स के हर एक पिक्सेल को पहले से गद्देदार फ़ीचर मैप के "पिक्सेल" के द्वारा बनाया गया ।
सिस्टम को पैरामीटर सीखना है ।
टाइप 2.1 कनवल्शन
पहले की तरह: पहली परत निष्पादित हो जाती है। उसके बाद, मेरे पास फ़ीचर मैप्स हैं (प्रत्येक फ़िल्टर के लिए एक)। उनमें से प्रत्येक का आकार । हर एक पिक्सेल को गद्देदार इनपुट छवि से पिक्सेल ले कर बनाया गया था ।
पहले के विपरीत: फिर दूसरी परत लागू हो जाती है। हर एक फिल्टर एक ही क्षेत्र पर लागू होता है, लेकिन सभी पहले से नक्शे की सुविधा देते हैं । यह दूसरी परत निष्पादित होने के बाद फ़ीचर मानचित्रों को कुल मिलाकर परिणामित करता है । प्रत्येक नए फ़ीचर मैप्स के हर एक पिक्सेल को "पिक्सेल" को पहले से गद्देदार फ़ीचर मानचित्रों के "" द्वारा लिया जाता है।
सिस्टम को पैरामीटर सीखना है ।
2.2 कन्वेंशन टाइप करें
ऊपर की तरह, लेकिन प्रति फिल्टर प्रतिमान होने के बजाय, जिसे सीखा जाना है और बस दूसरे इनपुट फीचर मैप्स के लिए कॉपी किया जाना है, आपके पास परमादर्शों को सीखें जिन्हें सीखना होगा।
सवाल
- क्या टाइप 1 या टाइप 2 आमतौर पर इस्तेमाल किया जाता है?
- एलेक्सनेट में किस प्रकार का उपयोग किया जाता है ?
- GoogLeNet में किस प्रकार का उपयोग किया जाता है ?
- यदि आप कहते हैं कि टाइप 1: क्यों _ 1 कॉन्फोल्यूशन का कोई मतलब है? क्या वे केवल एक स्थिर डेटा को गुणा नहीं करते हैं?
- यदि आप टाइप 2 कहते हैं: कृपया द्विघाती लागत की व्याख्या करें ("उदाहरण के लिए, एक गहरी दृष्टि नेटवर्क में, यदि दो संकेंद्रित परतों को जंजीर किया जाता है, तो उनके फ़िल्टर की संख्या में किसी भी समान वृद्धि से गणना के द्विघात वृद्धि में परिणाम होता है")
सभी उत्तरों के लिए, कृपया कुछ सबूत (कागजात, पाठ्यपुस्तकें, चौखटे के प्रलेखन) दें जो आपका उत्तर सही हो।
बोनस प्रश्न 1
क्या पूलिंग को हमेशा केवल फ़ीचर मैप के अनुसार लागू किया जाता है या क्या यह कई फ़ीचर मैप पर भी किया जाता है?
बोनस प्रश्न २
मुझे अपेक्षाकृत यकीन है कि टाइप 1 सही है और मुझे GoogLe पेपर में कुछ गड़बड़ लगी। लेकिन वहाँ एक 3 डी दृढ़ संकल्प भी है। कहते हैं कि आपके पास आकार के 4237 1337 फ़ीचर मानचित्र हैं और आप फ़िल्टर लागू करते हैं। आप फ़ीचर मैप्स पर फ़िल्टर कैसे स्लाइड करते हैं? (बाएं से दाएं, ऊपर से नीचे, पहला फीचर मैप टू लास्ट फीचर मैप?) क्या यह तब तक मायने रखता है जब तक आप इसे लगातार करते हैं?
मेरा शोध
- मैंने ऊपर से दो पेपर पढ़े हैं, लेकिन मुझे अभी भी यकीन नहीं है कि क्या उपयोग किया जाता है।
- मैंने लेस्बियन प्रलेखन पढ़ा है
- मैंने थीनो प्रलेखन पढ़ा है
- मैंने कंसंट्रेटिव न्यूरल नेटवर्क पर जवाब पढ़ा है (सभी लिंक्स का अनुसरण किए बिना)
- मैंने कन्वर्सेशनल न्यूरल नेटवर्क्स (LeNet) पढ़ा है । विशेष रूप से आंकड़ा 1 मुझे अपेक्षाकृत सुनिश्चित करता है कि टाइप 2.1 सही है। यह GoogLe नेट में "द्विघात लागत" टिप्पणी के लिए भी फिट होगा और कैफ़ी के साथ मेरे कुछ व्यावहारिक अनुभव थे।