Dep दीक्षांत समारोह के साथ गहराई में जाना ’में डेप्थोंकैट का संचालन कैसे होता है?


12

पठन संकल्पों के साथ गहराई से आगे बढ़ते हुए, मैं डेप्थोंकैट परत के पार आया , प्रस्तावित इंसेप्शन मॉड्यूल का एक बिल्डिंग ब्लॉक , जो अलग-अलग आकार के कई दसियों के आउटपुट को जोड़ता है। लेखक इसे "फ़िल्टर कॉन्टेनेशन" कहते हैं। मशाल के लिए एक कार्यान्वयन प्रतीत होता है , लेकिन मैं वास्तव में यह नहीं समझता कि यह क्या करता है। क्या कोई सरल शब्दों में समझा सकता है?

जवाबों:


9

मुझे नहीं लगता कि इंसेप्शन मॉड्यूल का आउटपुट अलग-अलग आकार का होता है।

यहाँ छवि विवरण दर्ज करें

दृढ़ परतों के लिए लोग स्थानिक संकल्प को बनाए रखने के लिए अक्सर पैडिंग का उपयोग करते हैं।

नीचे-दाईं पूलिंग परत (नीला फ्रेम) अन्य संकेंद्रित परतों के बीच अजीब लग सकती है। हालाँकि, पारंपरिक पूलिंग-सबसम्पलिंग परतों (लाल फ्रेम, स्ट्राइड> 1) के विपरीत, उन्होंने उस पूलिंग परत में 1 स्ट्राइड का उपयोग किया । स्ट्राइड -1 पूलिंग लेयर्स वास्तव में एक ही तरीके से काम करती हैं, जैसे कि कंफोलिबल लेयर्स, लेकिन कन्वेक्शन ऑपरेशन के साथ मैक्सिमम ऑपरेशन।

तो पूलिंग लेयर के बाद का रिज़ॉल्यूशन भी अपरिवर्तित रहता है, और हम "गहराई" आयाम में एक साथ पूलिंग और कन्वेन्शनल लेयर्स को समेट सकते हैं।

यहाँ छवि विवरण दर्ज करें

जैसा कि कागज से उपरोक्त आंकड़े में दिखाया गया है, इनसेप्शन मॉड्यूल वास्तव में स्थानिक संकल्प रखता है।


6

मेरे मन में एक ही सवाल था कि आप पढ़ रहे हैं कि श्वेत पत्र और आपके द्वारा संदर्भित संसाधनों ने मुझे कार्यान्वयन के साथ आने में मदद की है।

में मशाल कोड आप संदर्भित है, यह कहते हैं:

--[[ DepthConcat ]]--
-- Concatenates the output of Convolutions along the depth dimension
-- (nOutputFrame). This is used to implement the DepthConcat layer
-- of the Going deeper with convolutions paper :

डीप लर्निंग में "गहराई" शब्द थोड़ा अस्पष्ट है। सौभाग्य से यह एसओ उत्तर कुछ स्पष्टता प्रदान करता है:

डीप न्यूरल नेटवर्क्स में गहराई यह बताती है कि नेटवर्क कितना गहरा है लेकिन इस संदर्भ में, गहराई का उपयोग दृश्य मान्यता के लिए किया जाता है और यह एक छवि के 3 आयाम में अनुवाद करता है।

इस मामले में आपके पास एक छवि है, और इस इनपुट का आकार 32x32x3 है जो कि (चौड़ाई, ऊंचाई, गहराई) है। तंत्रिका नेटवर्क को इस मापदंडों के आधार पर सीखने में सक्षम होना चाहिए क्योंकि प्रशिक्षण छवियों के विभिन्न चैनलों में गहराई से अनुवाद होता है।

इसलिए डेप्थोंकैट टेंसर्स को गहराई आयाम के साथ समेटता है जो टेंसर का अंतिम आयाम है और इस मामले में 3 डी टेंसर का तीसरा आयाम है।

टार्च कोड के अनुसार , डेप्थोंसैट को सभी आयामों में दसियों को समान बनाने की आवश्यकता है लेकिन गहराई आयाम

-- The normal Concat Module can't be used since the spatial dimensions
-- of tensors to be concatenated may have different values. To deal with
-- this, we select the largest spatial dimensions and add zero-padding
-- around the smaller dimensions.

जैसे

A = tensor of size (14, 14, 2)
B = tensor of size (16, 16, 3)
result = DepthConcat([A, B])
where result with have a height of 16, a width of 16 and a depth of 5 (2 + 3). 

यहाँ छवि विवरण दर्ज करें

ऊपर दिए गए आरेख में, हम डेप्थोंकैट परिणाम टेंसर की एक तस्वीर देखते हैं, जहां सफेद क्षेत्र शून्य पैडिंग है, लाल ए टेंसोर है और हरा बी टेंसोर है।

इस उदाहरण में गहराई के लिए छद्म कोड यहाँ दिया गया है:

  1. टेंसर ए और टेन्सर बी को देखें और सबसे बड़े स्थानिक आयाम खोजें, जो इस मामले में टेंसोर बी की 16 चौड़ाई और 16 ऊंचाई के आकार होंगे। चूंकि टेन्सर A बहुत छोटा है और Tensor B के स्थानिक आयामों से मेल नहीं खाता है, इसलिए इसे गद्देदार करना होगा।
  2. पहले और दूसरे आयाम के लिए शून्य को जोड़कर दसियों ए (16, 16, 2) के आकार के साथ दसियों ए के स्थानिक आयामों को पैड करें।
  3. गहराई (3 डी) आयाम के साथ टेंटोर बी के साथ कॉन्टेनेटेड गद्देदार टेंसोर ए।

मुझे आशा है कि यह किसी और व्यक्ति की मदद करता है जो सोचता है कि एक ही प्रश्न उस श्वेत पत्र को पढ़ रहा है।


हाँ। सही परिचय। यह गहराई की दिशा में समतल है। स्थानिक दिशाओं में नहीं।
शामे सिराइवर्धन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.