तंत्रिका नेटवर्क में टोंटी आर्किटेक्चर कैसे काम करते हैं?

21

हम एक टोंटी आर्किटेक्चर को परिभाषित करते हैं जैसे कि रेसनेट पेपर में पाया जाने वाला प्रकार [दो 3x3 कन्टेस्ट लेयर] को [एक 1x1 कनव, एक 3x3 कन्ट और दूसरी 1x1 कन्टेन लेयर] से बदल दिया जाता है।

मैं समझता हूं कि 1x1 दृढ़ परतों का उपयोग आयाम में कमी (और बहाली) के रूप में किया जाता है, जिसे किसी अन्य पोस्ट में समझाया गया है । हालांकि, मैं इस बारे में स्पष्ट नहीं हूं कि यह संरचना मूल लेआउट के रूप में क्यों प्रभावी है।

कुछ अच्छी व्याख्याओं में शामिल हो सकते हैं: किस स्ट्राइड लंबाई का उपयोग किया जाता है और किन परतों पर? प्रत्येक मॉड्यूल के उदाहरण इनपुट और आउटपुट आयाम क्या हैं? ऊपर दिए गए आरेख में 56x56 फीचर मानचित्र कैसे दर्शाए गए हैं? क्या 64-d फ़िल्टर की संख्या को संदर्भित करता है, यह 256-d फ़िल्टर से भिन्न क्यों है? प्रत्येक परत पर कितने वज़न या FLOP का उपयोग किया जाता है?

किसी भी चर्चा काफी सराहना की है!

residuals deep-learning conv-neural-network

— derekchen14
स्रोत

मुझे लगता है कि यह सामान्यीकरण और अधिक फिटिंग की रोकथाम में मदद कर सकता है। लेकिन यह सिर्फ एक अस्पष्ट याद है।

— क्रिस

5

कम्प्यूटेशनल विचारों के कारण बहुत गहरे नेटवर्क में टोंटी आर्किटेक्चर का उपयोग किया जाता है।

अपने सवालों के जवाब देने के लिए:

उपरोक्त छवि में 56x56 फीचर मैप्स का प्रतिनिधित्व नहीं किया गया है। यह ब्लॉक इनपुट आकार 224x224 के साथ एक रेसनेट से लिया गया है। 56x56 कुछ मध्यवर्ती परत पर इनपुट का डाउनसम्प्ड संस्करण है।
64-डी फीचर मैप्स (फिल्टर) की संख्या को संदर्भित करता है। टोंटी आर्किटेक्चर में 256-डी है, बस इसलिए कि यह बहुत गहरे नेटवर्क के लिए है, जो संभवतः इनपुट के रूप में उच्च रिज़ॉल्यूशन की छवि लेता है और इसलिए अधिक फीचर मैप की आवश्यकता होती है।
ResNet 50 में प्रत्येक अड़चन परत के मापदंडों के लिए इस आंकड़े को देखें ।

— Newstein
स्रोत

1

भविष्य के पाठकों के लिए, मुझे यह उल्लेख करना चाहिए कि मुझे लगता है कि 1x1 कंस्ट्रक्ट में 56x56 के संरक्षण (WxH) के लिए 1 = 1 और पैड = 0 है। इसी प्रकार, 3x3 आकृतियों में आकार को संरक्षित करने के लिए = 1 और पैड = 1 है।

— derekchen14

फिर भी मैं नहीं समझता। ऐसा लगता है कि दोनों के पास समान मात्रा में पैरामीटर हैं, उस स्थिति में मैं अभी भी बूटलेनेक परत के उद्देश्य को नहीं समझता हूं।

— user570593

-1

मुझे वास्तव में लगता है कि न्यूटन के उत्तर में दूसरा बिंदु भ्रामक है।

64-dया 256-dका संदर्भ लेना चाहिए चैनलों की संख्या के इनपुट सुविधा मानचित्र - नहीं इनपुट सुविधा की संख्या मैप करता है।

उदाहरण के रूप में ओपी के प्रश्न में "अड़चन" ब्लॉक (आंकड़ा का अधिकार) पर विचार करें:

256-dइसका मतलब है कि हमारे पास आयाम के साथ एक एकल इनपुट सुविधा नक्शा है n x n x 256। 1x1, 64आंकड़ा साधन में 64 फिल्टर , प्रत्येक है 1x1और है 256चैनल ( 1x1x256)।
इसलिए यहाँ हम देख सकते हैं कि 1x1x256इनपुट फीचर मैप ( n x n x 256) के साथ सिंगल फिल्टर ( ) का कन्टेंशन हमें n x nआउटपुट देता है ।
अब हमारे पास 64फिल्टर हैं, इसलिए आउटपुट को स्टैक करके आउटपुट फीचर मैप आयाम है n x n x 64।

संपादित:

@ मिचेल चेरिक: ठीक है, तो यह एक आंशिक उत्तर होगा, क्योंकि मैंने स्वीकृत उत्तर को सही करने की कोशिश की थी। क्या आप मेरे आंशिक उत्तर को देखने के लिए समय निकाल सकते हैं और मुझे बता सकते हैं कि क्या मैं सही तरीके से समझ पा रहा हूं?

— आग लगना
स्रोत

प्रतिष्ठा के बावजूद आपको टिप्पणियों के जवाब का उपयोग नहीं करना चाहिए।

— माइकल आर। चेरिक