तंत्रिका नेटवर्क में टोंटी आर्किटेक्चर कैसे काम करते हैं?


21

हम एक टोंटी आर्किटेक्चर को परिभाषित करते हैं जैसे कि रेसनेट पेपर में पाया जाने वाला प्रकार [दो 3x3 कन्टेस्ट लेयर] को [एक 1x1 कनव, एक 3x3 कन्ट और दूसरी 1x1 कन्टेन लेयर] से बदल दिया जाता है।यहाँ छवि विवरण दर्ज करें

मैं समझता हूं कि 1x1 दृढ़ परतों का उपयोग आयाम में कमी (और बहाली) के रूप में किया जाता है, जिसे किसी अन्य पोस्ट में समझाया गया है । हालांकि, मैं इस बारे में स्पष्ट नहीं हूं कि यह संरचना मूल लेआउट के रूप में क्यों प्रभावी है।

कुछ अच्छी व्याख्याओं में शामिल हो सकते हैं: किस स्ट्राइड लंबाई का उपयोग किया जाता है और किन परतों पर? प्रत्येक मॉड्यूल के उदाहरण इनपुट और आउटपुट आयाम क्या हैं? ऊपर दिए गए आरेख में 56x56 फीचर मानचित्र कैसे दर्शाए गए हैं? क्या 64-d फ़िल्टर की संख्या को संदर्भित करता है, यह 256-d फ़िल्टर से भिन्न क्यों है? प्रत्येक परत पर कितने वज़न या FLOP का उपयोग किया जाता है?

किसी भी चर्चा काफी सराहना की है!


मुझे लगता है कि यह सामान्यीकरण और अधिक फिटिंग की रोकथाम में मदद कर सकता है। लेकिन यह सिर्फ एक अस्पष्ट याद है।
क्रिस

जवाबों:


5

कम्प्यूटेशनल विचारों के कारण बहुत गहरे नेटवर्क में टोंटी आर्किटेक्चर का उपयोग किया जाता है।

अपने सवालों के जवाब देने के लिए:

  1. उपरोक्त छवि में 56x56 फीचर मैप्स का प्रतिनिधित्व नहीं किया गया है। यह ब्लॉक इनपुट आकार 224x224 के साथ एक रेसनेट से लिया गया है। 56x56 कुछ मध्यवर्ती परत पर इनपुट का डाउनसम्प्ड संस्करण है।

  2. 64-डी फीचर मैप्स (फिल्टर) की संख्या को संदर्भित करता है। टोंटी आर्किटेक्चर में 256-डी है, बस इसलिए कि यह बहुत गहरे नेटवर्क के लिए है, जो संभवतः इनपुट के रूप में उच्च रिज़ॉल्यूशन की छवि लेता है और इसलिए अधिक फीचर मैप की आवश्यकता होती है।

  3. ResNet 50 में प्रत्येक अड़चन परत के मापदंडों के लिए इस आंकड़े को देखें ।


1
भविष्य के पाठकों के लिए, मुझे यह उल्लेख करना चाहिए कि मुझे लगता है कि 1x1 कंस्ट्रक्ट में 56x56 के संरक्षण (WxH) के लिए 1 = 1 और पैड = 0 है। इसी प्रकार, 3x3 आकृतियों में आकार को संरक्षित करने के लिए = 1 और पैड = 1 है।
derekchen14

फिर भी मैं नहीं समझता। ऐसा लगता है कि दोनों के पास समान मात्रा में पैरामीटर हैं, उस स्थिति में मैं अभी भी बूटलेनेक परत के उद्देश्य को नहीं समझता हूं।
user570593

-1

मुझे वास्तव में लगता है कि न्यूटन के उत्तर में दूसरा बिंदु भ्रामक है।

64-dया 256-dका संदर्भ लेना चाहिए चैनलों की संख्या के इनपुट सुविधा मानचित्र - नहीं इनपुट सुविधा की संख्या मैप करता है।

उदाहरण के रूप में ओपी के प्रश्न में "अड़चन" ब्लॉक (आंकड़ा का अधिकार) पर विचार करें:

  • 256-dइसका मतलब है कि हमारे पास आयाम के साथ एक एकल इनपुट सुविधा नक्शा है n x n x 2561x1, 64आंकड़ा साधन में 64 फिल्टर , प्रत्येक है 1x1और है 256चैनल ( 1x1x256)।
  • इसलिए यहाँ हम देख सकते हैं कि 1x1x256इनपुट फीचर मैप ( n x n x 256) के साथ सिंगल फिल्टर ( ) का कन्टेंशन हमें n x nआउटपुट देता है ।
  • अब हमारे पास 64फिल्टर हैं, इसलिए आउटपुट को स्टैक करके आउटपुट फीचर मैप आयाम है n x n x 64

संपादित:

  • @ मिचेल चेरिक: ठीक है, तो यह एक आंशिक उत्तर होगा, क्योंकि मैंने स्वीकृत उत्तर को सही करने की कोशिश की थी। क्या आप मेरे आंशिक उत्तर को देखने के लिए समय निकाल सकते हैं और मुझे बता सकते हैं कि क्या मैं सही तरीके से समझ पा रहा हूं?

प्रतिष्ठा के बावजूद आपको टिप्पणियों के जवाब का उपयोग नहीं करना चाहिए।
माइकल आर। चेरिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.