संवादात्मक तंत्रिका नेटवर्क: आउटपुट में केंद्रीय न्यूरॉन्स का प्रतिनिधित्व नहीं किया जाता है?


30

[यह सवाल स्टैक ओवरफ्लो पर भी डाला गया था ]

संक्षेप में सवाल

मैं दृढ़ तंत्रिका नेटवर्क का अध्ययन कर रहा हूं, और मेरा मानना ​​है कि ये नेटवर्क हर इनपुट न्यूरॉन (पिक्सेल / पैरामीटर) के साथ समान व्यवहार नहीं करते हैं। कल्पना कीजिए कि हमारे पास एक गहरा नेटवर्क (कई परतें) हैं जो कुछ इनपुट छवि पर दृढ़ संकल्प को लागू करते हैं। छवि के "मध्य" में न्यूरॉन्स में कई गहरे परत वाले न्यूरॉन्स के लिए कई अनोखे रास्ते हैं, जिसका अर्थ है कि मध्य न्यूरॉन्स में एक छोटे से बदलाव का आउटपुट पर एक मजबूत प्रभाव पड़ता है। हालांकि, छवि के किनारे पर न्यूरॉन्स के पास केवल रास्ता है (या, सटीक कार्यान्वयन के आधार पर, 1 ) मार्गों के क्रम में जिसमें उनकी जानकारी ग्राफ के माध्यम से बहती है। ऐसा लगता है कि ये "अंडर-प्रतिनिधित्व" हैं।11

बढ़त न्यूरॉन्स की इस भेदभाव पैमाने के रूप में मैं, इस बारे में चिंतित हूँ तेजी से नेटवर्क की गहराई (परतों की संख्या) के साथ। यहां तक ​​कि एक अधिकतम-पूलिंग परत को जोड़ने से घातीय वृद्धि रुक ​​नहीं जाएगी, केवल एक पूर्ण कनेक्शन सभी न्यूरॉन्स को समान स्तर पर लाता है। मुझे यकीन नहीं है कि मेरा तर्क सही है, हालांकि, इसलिए मेरे सवाल हैं:

  • क्या मैं सही हूं कि यह प्रभाव गहन दृढ़ नेटवर्क में होता है?
  • क्या इस बारे में कोई सिद्धांत है, क्या कभी साहित्य में इसका उल्लेख किया गया है?
  • क्या इस प्रभाव को दूर करने के तरीके हैं?

क्योंकि मुझे यकीन नहीं है कि अगर यह पर्याप्त जानकारी देता है, तो मैं समस्या के बारे में थोड़ा और विस्तार से बताऊंगा, और मुझे विश्वास है कि यह एक चिंता का विषय है।

अधिक विस्तृत विवरण

कल्पना कीजिए कि हमारे पास एक गहरा तंत्रिका नेटवर्क है जो एक छवि को इनपुट के रूप में लेता है। मान लें कि हम छवि के ऊपर पिक्सेल का एक कन्वेन्शियल फ़िल्टर लागू करते हैं, जहाँ हम हर बार 4 पिक्सेल द्वारा कनविक्शन विंडो को शिफ्ट करते हैं । इसका अर्थ है कि इनपुट में प्रत्येक न्यूरॉन परत 2 में 16 × 16 = 265 न्यूरॉन्स के लिए सक्रियण भेजता है । इन न्यूरॉन्स में से प्रत्येक अपने सक्रियण को दूसरे 265 पर भेज सकता है , जैसे कि हमारा सबसे ऊपरी न्यूरॉन 265 2 आउटपुट न्यूरॉन्स में प्रदर्शित होता है, और इसी तरह।64×64416×16=26522652652

यह, हालांकि, किनारों पर न्यूरॉन्स के लिए सच नहीं है: ये केवल थोड़ी संख्या में कन्वेन्शन विंडो में दर्शाए जा सकते हैं, इस कारण उन्हें अगली लेयर में केवल न्यूरॉन सक्रिय (के आदेश) का कारण बनता है । किनारों के साथ मिररिंग जैसे ट्रिक का उपयोग करने से यह मदद नहीं करेगा: दूसरी-लेयर-न्यूरॉन्स जिन्हें अभी भी किनारों पर अनुमानित किया जाएगा, जिसका अर्थ है कि दूसरी-लेयर-न्यूरॉन्स को कम करके आंका जाएगा (इस प्रकार के महत्व को सीमित करना) हमारे किनारे के न्यूरॉन्स भी)। जैसा कि देखा जा सकता है, यह विसंगति परतों की संख्या के साथ तेजी से बढ़ती है।1

मैंने समस्या की कल्पना करने के लिए एक छवि बनाई है, जिसे यहां पाया जा सकता है (मुझे पोस्ट में छवियों को शामिल करने की अनुमति नहीं है)। इस नेटवर्क में साइज़ की एक कनवेंशन विंडो है । न्यूरॉन्स के आगे की संख्या गहरी न्यूरॉन के नीचे के मार्ग की संख्या को दर्शाती है। छवि पास्कल के त्रिभुज की याद दिलाती है ।3

https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0

यह समस्या क्यों है?

यह प्रभाव पहली नजर में समस्या नहीं लगता है: सिद्धांत रूप में, वेट को स्वचालित रूप से इस तरह से समायोजित करना चाहिए कि नेटवर्क काम करता है। इसके अलावा, एक छवि के किनारों वैसे भी छवि मान्यता में महत्वपूर्ण नहीं हैं। यह प्रभाव हर रोज की छवि पहचान परीक्षणों में ध्यान देने योग्य नहीं हो सकता है, लेकिन यह अभी भी मुझे दो कारणों से चिंतित करता है: 1. अन्य अनुप्रयोगों के लिए सामान्यीकरण, और बहुत गहरे नेटवर्क के मामले में 2. समस्याएं ।

1. अन्य अनुप्रयोग भी हो सकते हैं, जैसे कि भाषण या ध्वनि मान्यता, जहां यह सच नहीं है कि मध्य-सबसे न्यूरॉन्स सबसे महत्वपूर्ण हैं। इस क्षेत्र में अक्सर दोषसिद्धि को लागू किया जाता है, लेकिन मैं किसी भी कागजात को खोजने में सक्षम नहीं हुआ हूं जो उस प्रभाव का उल्लेख करता है जो मैं चिंतित हूं।

2. बहुत गहरे नेटवर्क सीमा न्यूरॉन्स के भेदभाव के एक घातीय रूप से बुरे प्रभाव को नोटिस करेंगे , जिसका मतलब है कि केंद्रीय न्यूरॉन्स को परिमाण के कई क्रमों द्वारा ओवररेक्ट किया जा सकता है (कल्पना करें कि हमारे पास है1026510

अब हम कल्पना करते हैं कि हम छोटी मात्रा में सभी न्यूरॉन्स को खराब कर सकते हैं। केंद्रीय न्यूरॉन्स बढ़त न्यूरॉन्स की तुलना में उत्पादन को परिमाण के कई आदेशों द्वारा और अधिक मजबूती से बदलने का कारण बनेंगे। मेरा मानना ​​है कि सामान्य अनुप्रयोगों के लिए, और बहुत गहरे नेटवर्क के लिए, मेरी समस्या के आसपास के तरीके खोजने चाहिए?


8
मैं आपके प्रश्न का पूरी तरह से उत्तर नहीं दे सकता, लेकिन मुझे यह पेपर मिला: cs.utoranto.ca/~kriz/conv-cifar10-aug2010.pdf जो आपकी समस्या का समाधान करता है। वे अलग-अलग समाधानों के बारे में बात करते हैं, 1) शून्य से इनपुट के किनारों को पैडिंग करते हैं, 2) बेतरतीब ढंग से जुड़े घटकों में जोड़कर, या 3) किनारों को ठीक करना और आगे प्रचार करना ताकि कोई किनारे की जानकारी खो न जाए। मैं हाल ही में इसी समस्या के बारे में उत्सुक था और आपका प्रश्न पाया। मैं अभी भी उस कागज के विवरण के माध्यम से जा रहा हूँ। आशा करता हूँ की ये काम करेगा।
nfmcclure

धन्यवाद, यह वही था जिसकी मुझे तलाश थी! प्रभावशाली है कि यह 2 परतों के साथ कम ध्यान देने योग्य है। उन टीएल के लिए; पूरे कागज को खींचना: 1 के संयोजन का उपयोग करना) (शून्य पैडिंग) और 2) (यादृच्छिक वैश्विक कनेक्शन) सबसे अच्छा उपाय पाया गया।
Koen


मैं उत्सुक हूं, क्या यह एक गैर अतिव्यापी ऑफसेट का उपयोग करने के लिए पर्याप्त नहीं है? इसलिए आपके उदाहरण में आपके पास 64x64 पैच हैं और आप कनवल्शन को लागू करते समय हर बार 64 पिक्सेल के अपने इनपुट को स्थानांतरित करते हैं। (आपकी 'शिफ्ट' मेरी 'ऑफसेट' है)। जो, मुझे लगता है, बस शून्य गद्दी करने के समान है?
रथाल

1
थोड़ी देर तक जवाब न देने के लिए क्षमा करें, मैं अब एनएन पर काम नहीं कर रहा हूं। हालांकि, मुझे लगता है कि मैं सवालों का जवाब दे सकता हूं, हालांकि मुझे एहसास है कि मेरे बड़े लक्ष्य को बेहतर तरीके से समझना है कि क्या चल रहा है (जो मैं अभी भी नहीं कर रहा हूं)। 1) यह प्रभाव वास्तव में लगता है। 2) ऊपर लिंक किया गया पेपर इसे बताता है और 3) इसे दूर करने के तरीके भी खोजता है। रेंटाल के लिए: नॉनओवरलैपिंग पैच (ऑफसेट = कनवे साइज़ चुनने) से वास्तव में मेरी समस्या दूर हो जानी चाहिए, लेकिन लोग अक्सर बेहतर काम करने के लिए ओवरलैपिंग पैच पाते हैं। EngrStudent के लिए, क्षमा करें, मैं बूटस्ट्रैप Resampling से परिचित नहीं हूं।
कोएन

जवाबों:


4

पदानुक्रमित मॉडल में विरल प्रतिनिधित्व की अपेक्षा की जाती है। संभवतः, आप जो खोज रहे हैं वह गहरी सीखने के मॉडल की पदानुक्रमित संरचना के लिए एक समस्या है। आपको "विरल प्रतिनिधित्व" पर काफी कुछ वैज्ञानिक पत्र मिलेंगे, विशेष रूप से स्मृति अनुसंधान में।

मुझे लगता है कि आपको दृश्य प्रांतस्था में "रिसेप्टर फ़ील्ड्स" के बारे में पढ़ने से लाभ होगा। स्तनधारी मस्तिष्क में न केवल ओएन और ऑफ कोशिकाएं होती हैं, बल्कि आरएफ कोशिकाएं भी होती हैं जो ऑन और ऑफ दोनों के दौरान आग लगाती हैं। शायद दृष्टि पर वर्तमान तंत्रिका विज्ञान को प्रतिबिंबित करने के लिए मॉडल को अपडेट करके किनारे / स्पार्सिटी समस्या को दरकिनार किया जा सकता है, विशेष रूप से पशु मॉडल में।


3

आप सही हैं कि यह एक समस्या है यदि कनवल्शन केवल छवि पिक्सल्स पर संचालित होता है, लेकिन यदि आप छवियों को शून्य-पैड करते हैं तो समस्या गायब हो जाती है (जैसा कि आमतौर पर अनुशंसित है)। यह सुनिश्चित करता है कि कन्वेन्शन हर पिक्सेल पर एक ही बार फ़िल्टर लागू करेगा।


1
मैं अभी आश्वस्त नहीं हूं। शून्य-गद्दी केवल "केंद्र" पिक्सेल के आसपास अधिक आउटपुट-पिक्सेल बनाएगी जो बिना गद्दी के पाता है। "केंद्र" पिक्सल के मूल्य बिल्कुल समान हैं, कोई फर्क नहीं पड़ता कि कोई भी शून्य-पैडिंग का उपयोग करता है।
कोएन

1
n×nn1

इस पृष्ठ के नीचे का दृश्यांकन
jon_simon
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.