सीएनएन, गुठली और स्केल / रोटेशन इनवेरियन के बारे में


18

मेरे पास कुछ सवाल हैं जो मुझे सीएनएन के बारे में भ्रमित कर रहे हैं।
1) CNN का उपयोग करके निकाली गई विशेषताएँ पैमाने और घूर्णन अपरिवर्तनीय हैं?
2) अपने डेटा के साथ हम जिन गुठली का उपयोग करते हैं, वे पहले से ही साहित्य में परिभाषित हैं? ये गुठली किस प्रकार की होती है? क्या यह हर एप्लिकेशन के लिए अलग है?

जवाबों:


17

1) CNN का उपयोग करके निकाली गई विशेषताएँ पैमाने और घूर्णन अपरिवर्तनीय हैं?

CNN में अपने आप में एक विशेषता पैमाना या घूर्णन नहीं है। अधिक जानकारी के लिए, देखें: डीप लर्निंग। इयान गुडफेलो और योशुआ बेंगियो और आरोन कोर्टविल। 2016: http://egrcc.github.io/docs/dl/deeplearningbook-convnets.pdf ; http://www.deeplearningbook.org/contents/convnets.html :

बातचीत स्वाभाविक रूप से कुछ अन्य परिवर्तनों के लिए समान नहीं है, जैसे कि किसी छवि के पैमाने या घुमाव में परिवर्तन। इस प्रकार के परिवर्तनों को संभालने के लिए अन्य तंत्र आवश्यक हैं।

यह अधिकतम पूलिंग परत है जो ऐसे आक्रमणकारियों का परिचय देती है:

यहाँ छवि विवरण दर्ज करें

2) अपने डेटा के साथ हम जिन गुठली का उपयोग करते हैं, वे पहले से ही साहित्य में परिभाषित हैं? ये गुठली किस प्रकार की होती है? क्या यह हर एप्लिकेशन के लिए अलग है?

एएनएन के प्रशिक्षण चरण के दौरान गुठली सीखी जाती है।


मैं कला की वर्तमान स्थिति के संदर्भ में विवरण के लिए बात नहीं कर सकता, लेकिन बिंदु 1 के विषय पर, मुझे यह दिलचस्प लगा।
मई को जियोमैट 22

@ चरण 1) इसका मतलब है, हम सिस्टम रोटेशन इनवेरिएंट बनाने के लिए कोई विशेष कदम नहीं उठाते हैं? और स्केल इनवेरिएंट के बारे में कैसे, क्या यह संभव है कि स्केल पूलिंग को अधिकतम पूलिंग से प्राप्त किया जा सके?
अदनान फारूक ए

2) गुठली विशेषताएं हैं। मुझे वह नहीं मिला। [यहाँ] ( wildml.com/2015/11/… ) उन्होंने उल्लेख किया है कि "उदाहरण के लिए, छवि वर्गीकरण में एक CNN पहली परत में कच्चे पिक्सेल से किनारों का पता लगाना सीख सकता है, फिर किनारों का उपयोग करके सरल आकृतियों का पता लगा सकता है। दूसरी परत, और फिर उच्च स्तर की विशेषताओं को रोकने के लिए इन आकृतियों का उपयोग करें, जैसे कि उच्च परतों में चेहरे की आकृतियाँ। अंतिम परत तब एक क्लासिफायरियर है जो इन उच्च-स्तरीय विशेषताओं का उपयोग करती है। "
अदनान फारूक एक

2
ध्यान दें कि आप जिस पूलिंग के बारे में बात कर रहे हैं उसे क्रॉस-चैनल पूलिंग के रूप में संदर्भित किया जाता है और पूलिंग का प्रकार नहीं है जिसे आमतौर पर "अधिकतम-पूलिंग" के बारे में बात करते समय संदर्भित किया जाता है, जो केवल स्थानिक आयामों पर पूल करता है (विभिन्न इनपुट चैनलों पर नहीं )।
सोलियस

1
क्या यह एक ऐसा मॉडल है जिसमें कोई अधिकतम-पूल परतें नहीं हैं (अधिकांश वर्तमान एसओटीए आर्किटेक्चर पूलिंग का उपयोग नहीं करते हैं) पूरी तरह से निर्भर है?
शुभमगेल

6

मुझे लगता है कि कुछ चीजें आपको भ्रमित कर रही हैं, इसलिए पहले चीजें।

x[n]h[n]x[n]h[n]y[n]=(xh)[n]

y[n]=Σ=-एक्स[] [n-]

ऊपर अगर एक आयामी संकेतों के लिए, लेकिन छवियों के लिए वही कहा जा सकता है, जो केवल दो आयामी संकेत हैं। उस स्थिति में, समीकरण बन जाता है:

मैंnw[आर,सी]=Σयू=-Σv=-मैंएल[यू,v] [आर-यू,सी-v]

सच में, यह क्या हो रहा है:

यहाँ छवि विवरण दर्ज करें

किसी भी दर पर, ध्यान में रखने वाली बात यह है कि कर्नेल , वास्तव में डीप न्यूरल नेटवर्क (DNN) के प्रशिक्षण के दौरान सीखा है । एक कर्नेल बस वह होने जा रहा है जो आप अपने इनपुट के साथ करते हैं। DNN कर्नेल को सीखेगा, जैसे कि यह छवि (या पिछली छवि) के कुछ पहलुओं को सामने लाता है, जो आपके लक्ष्य उद्देश्य के नुकसान को कम करने के लिए अच्छा होगा।

यह समझने का पहला महत्वपूर्ण बिंदु है: परंपरागत रूप से लोगों ने गुठली डिजाइन की है , लेकिन डीप लर्निंग में, हमने नेटवर्क को यह तय करने दिया कि सबसे अच्छा कर्नेल क्या होना चाहिए। हालाँकि हम जो एक बात निर्दिष्ट करते हैं, वह है कर्नेल आयाम। (इसे हाइपरपरमीटर कहा जाता है, उदाहरण के लिए, 5x5, या 3x3, आदि)।


अच्छी व्याख्या। क्या आप कृपया प्रश्न के पहले भाग का उत्तर दे सकते हैं। सीएनएन के बारे में स्केल / रोटेशन इन्वर्टर है?
अदनान फारूक एक

1
@AadnanFarooqA मैं आज रात ऐसा करूंगा।
तरिन ज़ियाई

2

जेफ्री हिंटन (जो कैप्सूल नेट का प्रस्ताव देते हैं) सहित कई लेखक इस मुद्दे को सुलझाने की कोशिश करते हैं, लेकिन गुणात्मक रूप से। हम इस मुद्दे को मात्रात्मक रूप से संबोधित करने का प्रयास करते हैं। सीएनएन में सभी कन्वेक्शन कर्नल्स सममितीय (आरेख 8 [Dih4] या 90 डिग्री वेतन वृद्धि रोटेशन सममित, एट अल) होने के नाते, हम इनपुट वेक्टर के लिए एक प्लेटफ़ॉर्म प्रदान करेंगे और प्रत्येक कनवेंशन पर वेक्टर वेक्टर परिणामित परत को घुमाया जाएगा। समान रूप से समान सममितीय संपत्ति (यानी, Dih4 या 90-वृद्धि रोटेशन सममित, एट अल) के साथ। इसके अतिरिक्त, प्रत्येक फ़िल्टर के लिए समान सममितीय संपत्ति होने से (यानी, पूरी तरह से जुड़ा हुआ है लेकिन पहली समतल परत पर समान सममित पैटर्न के साथ साझा करता है), प्रत्येक नोड पर परिणामी मान मात्रात्मक रूप से समान होगा और CNN आउटपुट वेक्टर के समान होगा। भी। मैंने इसे परिवर्तन-समरूप CNN (या TI-CNN-1) कहा है। ऐसी अन्य विधियां हैं जो CNN (TI-CNN-2) के अंदर सममित इनपुट या संचालन का उपयोग करके परिवर्तन-समरूप CNN का निर्माण कर सकती हैं। TI-CNN के आधार पर, एक गियर रोटेशन-समान CNN (GRI-CNN) का निर्माण कई TI-CNN द्वारा इनपुट वेक्टर के साथ किया जा सकता है, जो एक छोटे चरण कोण द्वारा घुमाया जाता है। इसके अलावा, विभिन्न परिवर्तित इनपुट वैक्टर के साथ कई जीआरआई-सीएनएन को मिलाकर एक मात्रात्मक समान सीएनएन का निर्माण भी किया जा सकता है।

  1. "समरूप रूप से तत्व संचालकों के माध्यम से परिवर्तनशील रूप से पहचाने जाने वाले और अपरिवर्तनीय तंत्रिका नेटवर्क" https://arxiv.org/abs/1806.03636 (जून 2018)

  2. सममित संचालन या इनपुट क्षेत्रों को जोड़कर "परिवर्तनशील रूप से पहचाने जाने वाले और अपरिवर्तनीय तंत्रिका नेटवर्क" https://arxiv.org/abs/1807.11156 (जुलाई 2018)

  3. "गियरेड रोटेशनलली आइडेंटिकल एंड इनवेरियंट कनफ्यूज़नल न्यूरल नेटवर्क सिस्टम्स" https://arxiv.org/abs/1808.01280 (अगस्त 2018)


-1

मुझे लगता है कि अधिकतम पूलिंग ट्रांसलेशन और घूर्णी आक्रमणों को केवल स्ट्राइड आकार से छोटे अनुवादों और घुमावों के लिए आरक्षित कर सकती है। यदि अधिक हो, तो कोई आक्रमण नहीं


1
क्या आप थोड़ा विस्तार कर सकते हैं? हम इस साइट पर उत्तरों को इस से थोड़ा अधिक विस्तृत होने के लिए प्रोत्साहित करते हैं (अभी, यह एक टिप्पणी के लिए अधिक दिखता है)। धन्यवाद!
एंटोनी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.