संवैधानिक परतें: पैड करने के लिए या नहीं करने के लिए?


19

एलेक्सनेट आर्किटेक्चर शून्य-पैडिंग का उपयोग करता है जैसा कि तस्वीर में दिखाया गया है: यहाँ छवि विवरण दर्ज करें हालांकि, पेपर में कोई स्पष्टीकरण नहीं है कि यह पैडिंग क्यों पेश की गई है।

स्टैंडफोर्ड सीएस 231 एन पाठ्यक्रम सिखाता है कि हम स्थानिक आकार को संरक्षित करने के लिए पैडिंग का उपयोग करते हैं: यहाँ छवि विवरण दर्ज करें

मुझे आश्चर्य है कि यह एकमात्र कारण है जिसे हमें पैडिंग की आवश्यकता है? मेरा मतलब है, अगर मुझे स्थानिक आकार को संरक्षित करने की आवश्यकता नहीं है तो क्या मैं सिर्फ पैडिंग को हटा सकता हूं? मुझे पता है कि यह स्थानिक आकार में बहुत तेजी से घटता है क्योंकि हम गहरे स्तर पर जाते हैं। हालांकि, मैं पूलिंग लेयर्स को हटाकर ट्रेड-ऑफ कर सकता हूं। मुझे बहुत खुशी होगी अगर कोई मुझे जीरो पैडिंग के पीछे कुछ औचित्य दे सके। धन्यवाद!

जवाबों:


20

वहाँ कुछ कारणों से गद्दी महत्वपूर्ण है:

  1. यदि हम heightऔर संरक्षित करते हैं तो नेटवर्क को डिज़ाइन करना आसान है और widthएक परत से दूसरी परत पर जाने पर टेंसर आयामों के बारे में बहुत अधिक चिंता करने की ज़रूरत नहीं है क्योंकि आयाम सिर्फ "काम" करेंगे

  2. यह हमें गहरे नेटवर्क डिजाइन करने की अनुमति देता है । पैडिंग के बिना, वॉल्यूम आकार में कमी बहुत जल्दी कम हो जाएगी।

  3. पैडिंग वास्तव में सीमाओं पर जानकारी रखकर प्रदर्शन में सुधार करता है

स्टैनफोर्ड व्याख्यान के उद्धरण: "CONV के बाद स्थानिक आकारों को स्थिर रखने के पूर्वोक्त लाभ के अलावा, ऐसा करने से वास्तव में प्रदर्शन में सुधार होता है। यदि CONV परतें इनपुट को शून्य-पैड नहीं करना थीं और केवल मान्य संकल्पों को पूरा करती हैं, तो आकार वॉल्यूम प्रत्येक CONV के बाद एक छोटी राशि से कम हो जाएगा, और सीमाओं पर जानकारी "जल्दी से धोया" जाएगा। - स्रोत

  1. जैसा कि @dontloo ने पहले ही कहा था, नए नेटवर्क आर्किटेक्चर को 1x1, 3x3 और 5x5 फिल्टर के साथ दृढ़ परतों को समतल करने की आवश्यकता है और यह संभव नहीं होगा यदि वे पैडिंग का उपयोग नहीं करते हैं क्योंकि आयाम मेल नहीं खाएंगे। यह समझने के लिए कि यहां पैडिंग उपयोगी क्यों है, बेहतर स्थापना मॉड्यूल की इस छवि को देखें।

यहाँ छवि विवरण दर्ज करें


4
जीरो पेडिंग इतना सर्वव्यापी क्यों है? छवि प्रसंस्करण में कई अलग-अलग सीमा मोड का उपयोग किया जाता है, जैसे कि विभिन्न प्रकार के दर्पण या किनारे पर मूल्य के साथ जारी रखना। वास्तविक चित्रों / विशेषताओं की तुलना में शुद्ध शून्य की संरचना बहुत अलग है।
इसरांडी

3

मुझे लगता है कि सबसे महत्वपूर्ण कारण स्थानिक आकार को संरक्षित करना है। जैसा कि आपने कहा, हम पूलिंग परतों को हटाकर स्थानिक आकार में कमी का व्यापार कर सकते हैं। हालाँकि कई हालिया नेटवर्क संरचनाएँ (जैसे अवशिष्ट जाल , अंतर्ग्रहण जाल , भग्न जाल ) विभिन्न परतों के आउटपुट पर काम करती हैं, जिसके लिए उनके बीच लगातार स्थानिक आकार की आवश्यकता होती है।

एक और बात है, अगर कोई पैडिंग नहीं है, तो इनपुट के कोने में पिक्सेल केवल आउटपुट के संगत कोने में पिक्सेल को प्रभावित करते हैं, जबकि केंद्र में पिक्सेल आउटपुट में पड़ोस में योगदान करते हैं। जब कई नो-पैडिंग लेयर एक साथ खड़ी हो जाती हैं, तो नेटवर्क इमेज के बोर्डर पिक्सल्स को नजरअंदाज कर देता है।

बस मेरी कुछ समझ, मेरा मानना ​​है कि अन्य अच्छे कारण हैं।


2

बड़ा सवाल है। ड्रैग 0 को अच्छी तरह से समझाया गया लेकिन मैं सहमत हूं, कुछ गड़बड़ है।

यह एक तस्वीर को देखने और सीमा से निपटने के लिए होने जैसा है। वास्तविक जीवन में, आप आगे देखने के लिए अपनी आँखें स्थानांतरित कर सकते हैं; कोई वास्तविक सीमाएं मौजूद नहीं हैं। तो यह माध्यम की एक सीमा है।

आकार को संरक्षित करने के अलावा, क्या इससे कोई फर्क पड़ता है? मुझे एक संतोषजनक उत्तर की जानकारी नहीं है लेकिन मैं अनुमान (अप्रमाणित) करता हूं कि ध्यान और रोड़ा (आंशिक वस्तुओं) पर प्रयोगों के साथ, हमें सीमाओं पर खोई गई जानकारी की आवश्यकता नहीं है। यदि आप कुछ होशियार करना चाहते थे (कहते हैं कि पिक्सेल को उसके बगल में कॉपी करें), तो यह उत्तर को नहीं बदलेगा हालांकि मैंने खुद प्रयोग नहीं किया है। 0s के साथ पैडिंग तेज़ है और आकार को बनाए रखता है, इसलिए हम ऐसा करते हैं।


1

यह मेरी सोच है। ouput सुविधा वेक्टर के आकार को बनाए रखने के लिए प्रारंभिक समय में शून्य पैडिंग महत्वपूर्ण है। और इसके ऊपर के किसी व्यक्ति ने कहा कि शून्य पैडिंग में अधिक प्रदर्शन है।

लेकिन अंतिम समय में कैसे? छवि सुविधा वेक्टर रिज़ॉल्यूशन बहुत छोटा है, और पिक्सेल मूल्य का मतलब कुछ वैश्विक आकार के वेक्टर का एक प्रकार है।

मुझे लगता है कि पिछले मामले में किसी तरह की मिररिंग बेहतर है तो जीरो पैडिंग।


1

सीमा पर जानकारी रखने पर विस्तृत रूप से, मूल रूप से, कोने में पिक्सेल (हरे रंग की छायांकित) पर किया गया कनवल्शन सिर्फ एक बार इस्तेमाल किया जाएगा, जबकि बीच में एक, छायांकित लाल की तरह, परिणामस्वरूप फीचर मैप में कई बार योगदान करेगा। , हम चित्र को देखते हैं: चित्र 2


1

मैं जानकारी के संबंध में यह बताने की कोशिश करूंगा कि कब पैड लगाना ठीक है और कब नहीं।

आधार मामले के लिए चलो टेंसोफ़्लो पैडिंग कार्यक्षमता का उदाहरण लेते हैं। यह दो परिदृश्य प्रदान करता है, या तो "मान्य" या "समान"। वही आउटपुट के आकार को संरक्षित करेगा और उसे उपयुक्त पेडिंग जोड़कर इनपुट के समान ही रखेगा, जबकि वैध ऐसा नहीं करेगा और कुछ लोग दावा करते हैं कि इससे जानकारी का नुकसान होगा, लेकिन, यहाँ पकड़ है ।

यह जानकारी हानि कर्नेल या आपके द्वारा उपयोग किए जा रहे फ़िल्टर के आकार पर निर्भर करती है। उदाहरण के लिए, मान लें कि आपकी छवि 28x28 है और फ़िल्टर का आकार 15x15 है (मान लीजिए)। आउटपुट का आयाम 16x16 होना चाहिए, लेकिन यदि आप टेंसरफ्लो में "समान" का उपयोग करते हैं तो यह 28x28 होगा। अब 12 पंक्तियाँ और 12 स्तंभ अपने आप में कोई सार्थक जानकारी नहीं रखते हैं लेकिन फिर भी शोर के रूप में हैं। और हम सभी जानते हैं कि शोर के प्रति अतिसंवेदनशील गहन शिक्षण मॉडल कितने हैं। यह प्रशिक्षण को बहुत कम कर सकता है। इसलिए यदि आप बड़े फिल्टर का उपयोग कर रहे हैं, तो बेहतर है कि आप पैडिंग के साथ न जाएं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.