कन्वर्सेशनल न्यूरल नेटवर्क में कनविक्शन स्टेप क्या करता है?


16

मैं कंप्यूटर दृष्टि में उनके अनुप्रयोगों के कारण दृढ़ तंत्रिका नेटवर्क (CNNs) का अध्ययन कर रहा हूं। मैं पहले से ही मानक फीड-फॉवर्ड न्यूरल नेटवर्क से परिचित हूं, इसलिए मुझे उम्मीद है कि यहां के कुछ लोग सीएनएन को समझने में अतिरिक्त कदम उठाने में मेरी मदद कर सकते हैं। यहाँ मैं सीएनएन के बारे में क्या सोचता हूँ:

  1. पारंपरिक फीड-फ़ॉवर्ड एनएन में, हमारे पास प्रशिक्षण डेटा होता है, जहां प्रत्येक तत्व में एक विशेषता वेक्टर होता है जिसे हम "इनपुट लेयर" में एनएन पर इनपुट करते हैं, इसलिए छवि मान्यता के साथ, हम बस प्रत्येक पिक्सेल का एक इनपुट हो सकते हैं। वे हमारे फीचर वैक्टर हैं। वैकल्पिक रूप से, हम मैन्युअल रूप से अन्य - छोटे फीचर वैक्टर बना सकते हैं।
  2. सीएनएन का लाभ यह है कि यह मजबूत फीचर वैक्टर उत्पन्न कर सकता है जो छवि विरूपण और स्थिति के लिए अधिक अपरिवर्तनीय हैं। जैसा कि निम्न छवि दिखाता है (से) इस ट्यूटोरियल से ) के रूप में, सीएनएन ने फीचर मैप तैयार किए हैं जो तब एक मानक तंत्रिका नेटवर्क (इसलिए वास्तव में यह एक विशाल पूर्व-प्रसंस्करण कदम है) को खिलाया जाता है।

यहाँ छवि विवरण दर्ज करें

  1. जिस तरह से हम उन "बेहतर" सुविधाओं को बारी-बारी से दृढ़ संकल्प और उप-नमूना द्वारा प्राप्त करते हैं। मैं समझता हूं कि उप-नमूना कैसे काम करता है। प्रत्येक फ़ीचर मैप के लिए, बस पिक्सेल का एक सबसेट लें, या हम पिक्सेल के मूल्यों को औसत कर सकते हैं।

लेकिन जिस बात पर मैं मुख्य रूप से भ्रमित हूं, वह यह है कि कन्वेंशन स्टेप कैसे काम करता है। मैं प्रायिकता सिद्धांत (दो यादृच्छिक चर के योग के लिए घनत्व) के संकल्पों से परिचित हूं, लेकिन वे सीएनएन में कैसे काम करते हैं, और वे प्रभावी क्यों हैं?

मेरा प्रश्न इसके समान है , लेकिन विशेष रूप से, मुझे यकीन नहीं है कि पहला दृढ़ संकल्प कदम क्यों काम करता है।

जवाबों:


16

मैं पहले CNN के पीछे कुछ अंतर्ज्ञान साझा करने की कोशिश करूँगा और फिर आपके द्वारा सूचीबद्ध विशेष विषयों पर टिप्पणी करूँगा।

CNN में कनवल्शन और सब-सैंपलिंग लेयर एक आम MLP में छिपी हुई लेयर्स से अलग नहीं होती हैं, अर्थात उनका कार्य उनके इनपुट से सुविधाओं को निकालना है। इन सुविधाओं को तब और अधिक जटिल विशेषताओं को निकालने के लिए अगली छिपी परत को दिया जाता है, या अंतिम भविष्यवाणी (आमतौर पर एक सॉफ्टमैक्स, लेकिन एसवीएम या किसी अन्य का उपयोग किया जा सकता है) को आउटपुट करने के लिए सीधे मानक क्लासिफ़ायर के लिए दिया जाता है। छवि मान्यता के संदर्भ में, ये विशेषताएं चित्र व्यवहार हैं, जैसे निचली परतों में स्ट्रोक पैटर्न और ऊपरी परतों में ऑब्जेक्ट भागों।

प्राकृतिक चित्रों में ये विशेषताएं सभी स्थानों पर समान होती हैं। छवियों के बीच में एक निश्चित स्ट्रोक पैटर्न को पहचानना उतना ही उपयोगी होगा जितना कि इसे सीमाओं के करीब पहचानना। तो हम छिपी हुई परतों की प्रतिकृति क्यों नहीं बनाते हैं और इनपुट इमेज के सभी क्षेत्रों में इसकी कई प्रतियाँ जोड़ते हैं, इसलिए समान सुविधाओं का कहीं भी पता लगाया जा सकता है? यह वास्तव में एक सीएनएन क्या करता है, लेकिन एक कुशल तरीके से। प्रतिकृति ("कनविक्शन" चरण) के बाद हम एक उप-नमूना कदम जोड़ते हैं, जिसे कई तरीकों से लागू किया जा सकता है, लेकिन उप-नमूने से अधिक कुछ भी नहीं है। सिद्धांत रूप में इस कदम को हटाया भी जा सकता है, लेकिन व्यवहार में समस्या को सुगम बनाए रखने के लिए यह आवश्यक है।

इस प्रकार:

  1. सही बात।
  2. जैसा कि ऊपर बताया गया है, सीएनएन की छिपी हुई परतें एक नियमित एमएलपी के रूप में फीचर एक्सट्रैक्टर्स हैं। वैकल्पिक दृढ़ संकल्प और उप-नमूना कदम प्रशिक्षण और वर्गीकरण के दौरान किया जाता है, इसलिए वे वास्तविक प्रसंस्करण से पहले "कुछ" नहीं किया जाता है। मैं उन्हें "पूर्व-प्रसंस्करण" नहीं कहूंगा, उसी तरह एक एमएलपी की छिपी हुई परतों को नहीं कहा जाता है।
  3. सही बात।

3×35×5

यहाँ छवि विवरण दर्ज करें

9

बाद के कनवल्शन और सब-सैंपलिंग चरण एक ही सिद्धांत पर आधारित होते हैं, लेकिन मूल छवि के कच्चे पिक्सल के बजाय पिछली परत में निकाली गई विशेषताओं पर गणना की जाती है।


स्पष्टीकरण के लिए धन्यवाद। मैं आपके द्वारा बताए गए ट्यूटोरियल की जाँच करूँगा।
कंप्यूटर

वास्तव में अच्छा चित्रमय ग्राफिक्स। संदर्भित कार्य देखें: एम। एग्मोंट-पीटरसन, डी। डी। रिडर, एच। हैंडल्स। तंत्रिका नेटवर्क के साथ छवि प्रसंस्करण - एक समीक्षा, पैटर्न मान्यता, वॉल्यूम। 35, नंबर 10, पीपी। 2279-2301, 2002
मैच निर्माता ईई

चार साल बाद और अब मैं लगभग हर दिन सीएनएन के साथ काम करता हूं। @Saul Berardo की इस पोस्ट से मुझे सही रास्ते पर आने में मदद मिली :)
ComputerScientist

1

मुझे कोई मतलब नहीं है कि आपके द्वारा इसका मतलब क्या है "पहला दृढ़ संकल्प कदम क्यों काम करता है।" CNN को सफल होने के लिए कई परतों की आवश्यकता होती है। सीएनएन और कई अन्य गहन शिक्षण दृष्टिकोणों के पीछे एक मौलिक विचार यह है कि बड़े संकेतों को उनके छोटे भागों के स्थानिक सहसंबंध द्वारा पहचाना जा सकता है जो कि बहुत कम प्रतिनिधित्व करते हैं। दूसरे शब्दों में, चित्र जटिल दिख सकते हैं, लेकिन वे केवल कुछ मूल भागों के संयोजन से बने होते हैं। कंप्यूटर दृष्टि के लिए, छवियों में आधारभूत संरचना आमतौर पर किनारों और कोनों से बनी होती है। सीएनएन आम स्थानीयकृत संरचनाओं की तलाश में एक छवि में संरचना की दुर्लभता का फायदा उठाने की कोशिश करता है। यह वही है जो सीएनएन की पहली परत निर्धारित करने की कोशिश कर रही है। एक मैच फिल्टर के रूप में एक दृढ़ संकल्प के बारे में सोचें जो उन संकेतों की तलाश में है जो एक विशिष्ट टेम्पलेट से मेल खाते हैं। यह कितनी अच्छी तरह काम करता है यह हाथ के आंकड़ों पर निर्भर करता है। सौभाग्य से दुनिया छोटे पैमाने पर दोहराव से भरी है, इसलिए सीएनएन कंप्यूटर दृष्टि कार्यों के लिए अच्छी तरह से काम करता है।


हाँ, मुझे लगता है कि यह सामान्य विचार है। मैं अपने मूल प्रश्न में स्पष्ट नहीं था, लेकिन मैं सोच रहा था कि गणित ने काम क्यों किया, यानी, क्यों दोषपूर्ण संपत्ति पहले परत को उन छोटे हिस्सों को खोजने की अनुमति देती है।
कंप्यूटर

1
सजा और मिलान फ़िल्टरिंग के बारे में और पढ़ें। जब कन्वेक्शन कर्नेल सिग्नल से मेल खाता है तो यह सबसे बड़ा रिटर्न देता है।
सिंपल लाइकअनएग

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.