क्यों कनवल्शन हमेशा फ़िल्टर_साइज़ के रूप में विषम-संख्याओं का उपयोग करते हैं

13

यदि हमारे पास सीएनएन (कन्वेंशन) का उपयोग करके प्रकाशित 90-99% कागज़ात हैं। उनमें से अधिकांश बहुमत विषम संख्याओं के फ़िल्टर आकार का उपयोग करते हैं : {1, 3, 5, 7} सबसे अधिक उपयोग के लिए।

यह स्थिति कुछ समस्या पैदा कर सकती है: इन फ़िल्टर आकारों के साथ, आमतौर पर कनवल्शन ऑपरेशन 2 (सामान्य पैडिंग) के एक पैडिंग के साथ बिल्कुल सही नहीं होता है और इनपुट_फ़ील्ड के कुछ किनारों को प्रक्रिया में खो जाता है ...

प्रश्न 1: कनवल्शनफिल्टर्स के आकार के लिए केवल odd_numbers का उपयोग क्यों किया जाता है?

प्रश्न 2: क्या यह वास्तव में एक समस्या है कि इनपुट_फिल्ड के एक छोटे से हिस्से को कनविक्शन के दौरान छोड़ दिया जाए? ऐसा क्यों / नहीं?

— जोनाथन DEKHTIAR
स्रोत

14

कनवल्शन ऑपरेशन, सीधे शब्दों में कहें, दो मेट्रिसेस के तत्व-वार उत्पाद का संयोजन है। इसलिए जब तक ये दोनों मेट्रिक्स आयामों में सहमत होते हैं, तब तक कोई समस्या नहीं होनी चाहिए, और इसलिए मैं आपकी क्वेरी के पीछे की प्रेरणा को समझ सकता हूं।

A.1। हालाँकि, फ़िल्टर या कर्नेल के संदर्भ में आशय स्रोत डेटा मैट्रिक्स (संपूर्ण छवि) को एनकोड करना है। अधिक विशेष रूप से, हम एंकर / स्रोत पिक्सल के पड़ोस में पिक्सेल को एन्कोड करने की कोशिश कर रहे हैं। नीचे दिए गए चित्र पर एक नज़र डालें: आमतौर पर, हम स्रोत छवि के प्रत्येक पिक्सेल को एंकर / स्रोत पिक्सेल मानते हैं, लेकिन हम ऐसा करने के लिए विवश नहीं हैं। वास्तव में, एक स्ट्राइड को शामिल करना असामान्य नहीं है, जहां हम लंगर / स्रोत पिक्सल को विशिष्ट संख्या में पिक्सेल द्वारा अलग किया जाता है।

ठीक है, तो स्रोत पिक्सेल क्या है? यह एंकर पॉइंट है जिस पर कर्नेल केंद्रित है और हम एंकर / स्रोत पिक्सेल सहित सभी पड़ोसी पिक्सेल को एन्कोडिंग कर रहे हैं। चूंकि, कर्नेल सममित रूप से आकार का है (कर्नेल मानों में सममित नहीं है), एंकर पिक्सेल के सभी पक्षों (4- कनेक्टिविटी) पर पिक्सेल की समान संख्या (एन) हैं। इसलिए, पिक्सेल की यह संख्या जो भी हो सकती है, हमारे सममित आकार के कर्नेल के प्रत्येक पक्ष की लंबाई 2 * n + 1 (एंकर पिक्सेल का प्रत्येक पक्ष) है, और इसलिए फ़िल्टर / कर्नेल हमेशा विषम आकार के होते हैं।

क्या होगा अगर हमने 'परंपरा' को तोड़ने का फैसला किया और असममित गुठली का इस्तेमाल किया? आपको त्रुटियों का सामना करना पड़ेगा, और इसलिए हम ऐसा नहीं करते हैं। हम पिक्सेल को सबसे छोटी इकाई मानते हैं, अर्थात यहाँ कोई उप-पिक्सेल अवधारणा नहीं है।

A.2 सीमा समस्या को विभिन्न दृष्टिकोणों का उपयोग करके निपटाया जाता है: कुछ इसे अनदेखा करते हैं, कुछ शून्य पैड, कुछ दर्पण इसे प्रतिबिंबित करते हैं। यदि आप एक व्युत्क्रम ऑपरेशन की गणना नहीं कर रहे हैं, यानी विघटन, और मूल छवि के सही पुनर्निर्माण में कोई दिलचस्पी नहीं है, तो आप सीमा की समस्या के कारण जानकारी के नुकसान या इंजेक्शन के नुकसान के बारे में परवाह नहीं करते हैं। आमतौर पर, पूलिंग ऑपरेशन (औसत पूलिंग या अधिकतम पूलिंग) आपकी सीमा कलाकृतियों को वैसे भी हटा देगा। इसलिए, अपने 'इनपुट क्षेत्र' के भाग को अनदेखा करने के लिए स्वतंत्र महसूस करें, आपका पूलिंग ऑपरेशन आपके लिए ऐसा करेगा।

-

सजा का ज़ेन:

पुराने स्कूल सिग्नल प्रोसेसिंग डोमेन में, जब इनपुट सिग्नल को दोषी ठहराया गया था या फ़िल्टर के माध्यम से पारित किया गया था, तो ए-प्राथमिकता का न्याय करने का कोई तरीका नहीं था जो कि दोषी / फ़िल्टर किए गए प्रतिक्रिया के घटक प्रासंगिक / सूचनात्मक थे और जो नहीं थे। नतीजतन, उद्देश्य इन परिवर्तनों में संकेत घटकों (यह सब) को संरक्षित करना था।

ये संकेत घटक सूचना हैं। कुछ घटक दूसरों की तुलना में अधिक जानकारीपूर्ण हैं। इसका एकमात्र कारण यह है कि हम उच्च-स्तरीय जानकारी निकालने में रुचि रखते हैं; कुछ शब्दार्थ वर्गों के प्रति प्रासंगिक जानकारी। तदनुसार, वे संकेत घटक जो हमें विशेष रूप से रुचि रखने वाली जानकारी प्रदान नहीं करते हैं, उन्हें बाहर निकाला जा सकता है। इसलिए, कनवल्शन / फ़िल्टरिंग के बारे में पुराने स्कूल के डॉगमास के विपरीत, हम पूल / प्रून को कन्वेक्शन रिस्पॉन्स के लिए स्वतंत्र हैं जैसा कि हम महसूस करते हैं। जिस तरह से हम ऐसा महसूस कर रहे हैं वह सभी डेटा घटकों को सख्ती से हटाने के लिए है जो हमारे सांख्यिकीय मॉडल को बेहतर बनाने में योगदान नहीं दे रहे हैं।

— गतिशील स्टारडस्ट
स्रोत

अपने निर्वासन के लिए धन्यवाद, लेकिन गणितीय शब्दों में दृढ़ विश्वास की परिभाषा को देखकर इसे समझना आसान नहीं है? en.wikipedia.org/wiki/Convolution#Discrete_convolution क्योंकि यहां हम देखते हैं कि हमारे पास हमेशा एम की बायीं और दाईं ओर मूल शब्द होंगे ... इसलिए यह हमेशा एक असमान मात्रा में परिणाम देगा।

— zwep

@ स्वीप सहमत! क्यू एंड ए फोरम एनसाइक्लोपीडिया की जगह नहीं लेते हैं; लेकिन केवल उन्हें पूरक। हालाँकि, आपकी टिप्पणी के लिए एक व्यापक परिप्रेक्ष्य: आम तौर पर उपलब्ध विकल्पों के बीच परिभाषा केवल सहकर्मी की समीक्षा सबसे अच्छा विकल्प है; यह सत्य नहीं है। फिर भी, उन्हें तोड़ने से पहले नियमों को पहले सीखना चाहिए, इसलिए यह स्पष्ट रूप से समुदाय के लिए स्पष्ट रूप से सूचित किया जा सकता है कि आप इसे कैसे और क्यों अलग तरीके से कर रहे हैं। एक निश्चित परिभाषा के पीछे कारण और वैकल्पिक विकल्प शोध पत्रों में होते हैं और आमतौर पर एक विश्वकोश में नहीं होते हैं।

— डायनामिक स्टारडस्ट

5

1) मान लीजिए कि input_fieldइंडेक्स में एक प्रविष्टि को छोड़कर सभी शून्य हैं idx। एक विषम फ़िल्टर आकार चारों ओर केंद्रित चोटी के साथ डेटा लौटाएगा idx, यहां तक कि एक फ़िल्टर आकार भी नहीं होगा - आकार के साथ एक समान फ़िल्टर के मामले पर विचार करें। अधिकांश लोग चोटियों के स्थानों को संरक्षित करना चाहते हैं जब वे फ़िल्टर करते हैं।

2) सभी input_fieldदृढ़ संकल्प के लिए प्रासंगिक है, लेकिन output_fieldआवश्यक डेटा में समाहित नहीं होने के किनारों को सही ढंग से गणना नहीं की जा सकती है input_field। अगर मैं पहले तत्व के लिए एक उत्तर की गणना करना चाहता हूं output_field, तो फ़िल्टर पहले तत्व पर केंद्रित होना चाहिए input_field। लेकिन फिर फिल्टर तत्व हैं जो किसी भी उपलब्ध तत्व के अनुरूप नहीं हैं input_field। के किनारों के लिए एक अनुमान प्राप्त करने के लिए विभिन्न चालें हैं output_field।

— डेव किल्पिंस्की
स्रोत

2

विषम आकार के फ़िल्टर के लिए, सभी पिछली परत पिक्सेल आउटपुट पिक्सेल के चारों ओर सममित रूप से होगी। इस समरूपता के बिना, हमें उन परतों में विकृतियों का हिसाब देना होगा जो एक समान आकार के कर्नेल का उपयोग करते समय होती हैं। इसलिए, समान आकार के कर्नेल फ़िल्टर अधिकतर कार्यान्वयन सादगी को बढ़ावा देने के लिए छोड़ दिए जाते हैं। यदि आप दी गई पिक्सेल से एक केंद्र पिक्सेल के लिए प्रक्षेप के रूप में दृढ़ संकल्प के बारे में सोचते हैं, तो हम समान आकार के फ़िल्टर का उपयोग करके केंद्र पिक्सेल में प्रक्षेप नहीं कर सकते हैं।

स्रोत: https://towardsdatascience.com/deciding-optimal-filter-size-for-cnns-d6f7b56f9363

— सुशांत
स्रोत