मैक्स पूलिंग वैसे भी छवि को खराब करने जा रहा है, तो दृढ़ क्यों?


14

किनारों को पहचानने के लिए कुछ करने के लिए फ़िल्टर लगाने का विचार एक बहुत अच्छा विचार है।

उदाहरण के लिए, आप 7. की एक छवि ले सकते हैं। कुछ फिल्टर के साथ, आप परिवर्तित छवियों के साथ समाप्त हो सकते हैं जो मूल छवि की विभिन्न विशेषताओं पर जोर देते हैं। मूल 7:

यहाँ छवि विवरण दर्ज करें

नेटवर्क द्वारा अनुभव किया जा सकता है:

यहाँ छवि विवरण दर्ज करें

ध्यान दें कि प्रत्येक छवि ने मूल 7 के एक अलग किनारे को कैसे निकाला है।

यह सब बहुत अच्छा है, लेकिन फिर, कहें कि आपके नेटवर्क में अगली परत एक मैक्स पूलिंग परत है।

मेरा सवाल है, आम तौर पर, यह ओवरकिल की तरह थोड़ा सा नहीं लगता है? हम केवल फ़िल्टर का उपयोग करके किनारों की पहचान करने के साथ बहुत सावधान और जानबूझकर थे - अब, हम अब किसी भी बारे में परवाह नहीं करते हैं, क्योंकि हमने पिक्सेल मूल्यों से नरक को नष्ट कर दिया है! कृपया मुझे सही करें अगर मैं गलत हूं, लेकिन हम 25 एक्स 25 से 2 एक्स 2 पर चले गए! सिर्फ मैक्स पूलिंग के लिए सीधे क्यों न जाएं, क्या हम मूल रूप से एक ही चीज के साथ समाप्त नहीं होंगे?

मेरे प्रश्न के विस्तार के रूप में, मैं मदद नहीं कर सकता, लेकिन आश्चर्य है कि क्या होगा अगर, संयोग से, 4 वर्गों में से प्रत्येक में बस एक ही अधिकतम मूल्य के साथ एक पिक्सेल होने के लिए होता है। निश्चित रूप से यह एक दुर्लभ मामला नहीं है, है ना? अचानक आपकी सभी प्रशिक्षण छवियां सटीक दिखती हैं।

जवाबों:


16

अधिकतम पूलिंग छवि का नमूना नहीं लेती है। यह उन विशेषताओं (जैसे किनारों) का नमूना देता है जिन्हें आपने अभी-अभी निकाला है। जिसका अर्थ है कि आप अधिक से अधिक जहां उन किनारों या अन्य विशेषताएं हैं। अक्सर यह सिर्फ सामान्यीकरण के लिए नेटवर्क की आवश्यकता है - यह वर्गीकृत करने के लिए यह जानने की आवश्यकता नहीं है कि एक ऊर्ध्वाधर बढ़त 10,5 से 10,20 तक चल रही है, लेकिन यह लगभग 1/3 से लगभग ऊर्ध्वाधर छोर है छवि के बारे में 2/3 ऊंचाई के बाएं किनारे।

सुविधाओं की ये रफ श्रेणी स्वाभाविक रूप से बहुत कम लागत के लिए इनपुट छवि में अधिक भिन्नता को कवर करती है, और फ़ीचर मैप के आकार में कमी एक अच्छा साइड इफेक्ट भी है, जिससे नेटवर्क तेज होता है।

इसके लिए अच्छी तरह से काम करने के लिए, आपको अभी भी शुरू करने के लिए सुविधाओं को निकालने की आवश्यकता है, जो अधिकतम पूलिंग नहीं करता है, इसलिए दृढ़ परत आवश्यक है। आपको पता होना चाहिए कि आप पहली अधिकतम-पूलिंग परत का उपयोग करने के बजाय मूल छवि (14x14 तक) का नमूना ले सकते हैं, और आपको अभी भी बहुत ही उचित सटीकता मिलेगी। कितना पूलिंग करना है, और उन परतों को कहां जोड़ना है, एक गहरे तंत्रिका नेटवर्क का निर्माण करते समय अभी तक एक और हाइपर-पैरामीटर समस्या है।


6

हम सीधे इनपुट लेयर से अधिकतम पूलिंग की वजह से convolution layerबीच में नहीं जा सकते । सजा का कारण सुविधाओं को निकालना है। मैक्स पूलिंग के फीचर्स डाउन-सैंपल किए गए हैं। यदि आपको लगता है कि ऐसी विशेषताएँ हैं जो एक बड़ी मैट्रिक्स से अधिकतम पूलिंग लेयर पर सीधे कूदने के कारण गायब हैं, तो आप बीच में कनवल्शन की अधिक परतें जोड़ सकते हैं जब तक कि आप एक आकार से संतुष्ट नहीं हो जाते हैं और फिर उस पर अधिकतम पूलिंग करते हैं ताकि यह हो सके ओवरकिल नहीं है।

मैक्स पूलिंग, जो सबसे महत्वपूर्ण विशेषताओं की पहचान करने के लिए डाउन-सैंपलिंग का एक रूप है। लेकिन औसत पूलिंग और विभिन्न अन्य तकनीकों का भी उपयोग किया जा सकता है। मैं आम तौर पर पाठ के साथ काम करता हूं न कि छवियों के साथ। मेरे लिए, मूल्य सामान्य रूप से समान नहीं हैं। लेकिन अगर वे बहुत अधिक हैं, तो इससे बहुत फर्क नहीं पड़ेगा क्योंकि यह सिर्फ सबसे बड़ा मूल्य है।

विकी से एक बहुत अच्छी समझ -The intuition is that once a feature has been found, its exact location isn't as important as its rough location relative to other features. The function of the pooling layer is to progressively reduce the spatial size of the representation to reduce the amount of parameters and computation in the network, and hence to also control overfitting. It is common to periodically insert a pooling layer in-between successive conv layers in a CNN architecture. The pooling operation provides a form of translation invariance.


क्या आप अंतिम वाक्य समझा सकते हैं The pooling operation provides a form of translation invariance?
हैलोवर्ल्ड

@StudentT इसका मतलब है कि अधिकतम-पूल का आउटपुट उसी के बारे में होगा यदि छवि में कहीं भी सुविधा का पता चला है। छवि को उस चीज़ में स्थानांतरित करें जो सुविधा को सक्रिय कर रहा है और अधिकतम-पूल के लिए एक अलग इनपुट अधिकतम होगा लेकिन अधिकतम-पूल का बाहरी पुट समान होना चाहिए।
mrmcgreg

@mrmcgreg मेरा मानना ​​है कि ग्लोबल पूलिंग के लिए सही है, मैक्सिमम पूलिंग के लिए नहीं। मैक्स पूलिंग, पूल क्षेत्र (जैसे 2x2) के भीतर स्थानीय अनुवादों के लिए एक प्रकार का अदर्शन प्रदान करता है। यह सुविधाओं में कुछ घबराहट के लिए अनुमति देता है।
ज्यामितीय

0

रूपांतरण मूल रूप से पिक्सेल (नेटवर्क के मापदंडों) के बीच संबंध को खोए बिना छवि के आकार को कम करने के लिए एक छोटे से पिक्सेल फिल्टर के साथ छवि को फ़िल्टर कर रहा है, पूलिंग भी आकार के मैक्स, औसत या सम को निकालकर स्थानिक आकार को कम करता है। हालांकि यह इस प्रक्रिया में महत्वपूर्ण पैरामीटर को याद कर सकता है जो आकार को कम नहीं करके पुन: प्राप्ति को प्रमाणित करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.