किनारों को पहचानने के लिए कुछ करने के लिए फ़िल्टर लगाने का विचार एक बहुत अच्छा विचार है।
उदाहरण के लिए, आप 7. की एक छवि ले सकते हैं। कुछ फिल्टर के साथ, आप परिवर्तित छवियों के साथ समाप्त हो सकते हैं जो मूल छवि की विभिन्न विशेषताओं पर जोर देते हैं। मूल 7:
नेटवर्क द्वारा अनुभव किया जा सकता है:
ध्यान दें कि प्रत्येक छवि ने मूल 7 के एक अलग किनारे को कैसे निकाला है।
यह सब बहुत अच्छा है, लेकिन फिर, कहें कि आपके नेटवर्क में अगली परत एक मैक्स पूलिंग परत है।
मेरा सवाल है, आम तौर पर, यह ओवरकिल की तरह थोड़ा सा नहीं लगता है? हम केवल फ़िल्टर का उपयोग करके किनारों की पहचान करने के साथ बहुत सावधान और जानबूझकर थे - अब, हम अब किसी भी बारे में परवाह नहीं करते हैं, क्योंकि हमने पिक्सेल मूल्यों से नरक को नष्ट कर दिया है! कृपया मुझे सही करें अगर मैं गलत हूं, लेकिन हम 25 एक्स 25 से 2 एक्स 2 पर चले गए! सिर्फ मैक्स पूलिंग के लिए सीधे क्यों न जाएं, क्या हम मूल रूप से एक ही चीज के साथ समाप्त नहीं होंगे?
मेरे प्रश्न के विस्तार के रूप में, मैं मदद नहीं कर सकता, लेकिन आश्चर्य है कि क्या होगा अगर, संयोग से, 4 वर्गों में से प्रत्येक में बस एक ही अधिकतम मूल्य के साथ एक पिक्सेल होने के लिए होता है। निश्चित रूप से यह एक दुर्लभ मामला नहीं है, है ना? अचानक आपकी सभी प्रशिक्षण छवियां सटीक दिखती हैं।
The pooling operation provides a form of translation invariance
?