[यह सवाल स्टैक ओवरफ्लो पर भी डाला गया था ]
संक्षेप में सवाल
मैं दृढ़ तंत्रिका नेटवर्क का अध्ययन कर रहा हूं, और मेरा मानना है कि ये नेटवर्क हर इनपुट न्यूरॉन (पिक्सेल / पैरामीटर) के साथ समान व्यवहार नहीं करते हैं। कल्पना कीजिए कि हमारे पास एक गहरा नेटवर्क (कई परतें) हैं जो कुछ इनपुट छवि पर दृढ़ संकल्प को लागू करते हैं। छवि के "मध्य" में न्यूरॉन्स में कई गहरे परत वाले न्यूरॉन्स के लिए कई अनोखे रास्ते हैं, जिसका अर्थ है कि मध्य न्यूरॉन्स में एक छोटे से बदलाव का आउटपुट पर एक मजबूत प्रभाव पड़ता है। हालांकि, छवि के किनारे पर न्यूरॉन्स के पास केवल रास्ता है (या, सटीक कार्यान्वयन के आधार पर, 1 ) मार्गों के क्रम में जिसमें उनकी जानकारी ग्राफ के माध्यम से बहती है। ऐसा लगता है कि ये "अंडर-प्रतिनिधित्व" हैं।
बढ़त न्यूरॉन्स की इस भेदभाव पैमाने के रूप में मैं, इस बारे में चिंतित हूँ तेजी से नेटवर्क की गहराई (परतों की संख्या) के साथ। यहां तक कि एक अधिकतम-पूलिंग परत को जोड़ने से घातीय वृद्धि रुक नहीं जाएगी, केवल एक पूर्ण कनेक्शन सभी न्यूरॉन्स को समान स्तर पर लाता है। मुझे यकीन नहीं है कि मेरा तर्क सही है, हालांकि, इसलिए मेरे सवाल हैं:
- क्या मैं सही हूं कि यह प्रभाव गहन दृढ़ नेटवर्क में होता है?
- क्या इस बारे में कोई सिद्धांत है, क्या कभी साहित्य में इसका उल्लेख किया गया है?
- क्या इस प्रभाव को दूर करने के तरीके हैं?
क्योंकि मुझे यकीन नहीं है कि अगर यह पर्याप्त जानकारी देता है, तो मैं समस्या के बारे में थोड़ा और विस्तार से बताऊंगा, और मुझे विश्वास है कि यह एक चिंता का विषय है।
अधिक विस्तृत विवरण
कल्पना कीजिए कि हमारे पास एक गहरा तंत्रिका नेटवर्क है जो एक छवि को इनपुट के रूप में लेता है। मान लें कि हम छवि के ऊपर पिक्सेल का एक कन्वेन्शियल फ़िल्टर लागू करते हैं, जहाँ हम हर बार 4 पिक्सेल द्वारा कनविक्शन विंडो को शिफ्ट करते हैं । इसका अर्थ है कि इनपुट में प्रत्येक न्यूरॉन परत 2 में 16 × 16 = 265 न्यूरॉन्स के लिए सक्रियण भेजता है । इन न्यूरॉन्स में से प्रत्येक अपने सक्रियण को दूसरे 265 पर भेज सकता है , जैसे कि हमारा सबसे ऊपरी न्यूरॉन 265 2 आउटपुट न्यूरॉन्स में प्रदर्शित होता है, और इसी तरह।
यह, हालांकि, किनारों पर न्यूरॉन्स के लिए सच नहीं है: ये केवल थोड़ी संख्या में कन्वेन्शन विंडो में दर्शाए जा सकते हैं, इस कारण उन्हें अगली लेयर में केवल न्यूरॉन सक्रिय (के आदेश) का कारण बनता है । किनारों के साथ मिररिंग जैसे ट्रिक का उपयोग करने से यह मदद नहीं करेगा: दूसरी-लेयर-न्यूरॉन्स जिन्हें अभी भी किनारों पर अनुमानित किया जाएगा, जिसका अर्थ है कि दूसरी-लेयर-न्यूरॉन्स को कम करके आंका जाएगा (इस प्रकार के महत्व को सीमित करना) हमारे किनारे के न्यूरॉन्स भी)। जैसा कि देखा जा सकता है, यह विसंगति परतों की संख्या के साथ तेजी से बढ़ती है।
मैंने समस्या की कल्पना करने के लिए एक छवि बनाई है, जिसे यहां पाया जा सकता है (मुझे पोस्ट में छवियों को शामिल करने की अनुमति नहीं है)। इस नेटवर्क में साइज़ की एक कनवेंशन विंडो है । न्यूरॉन्स के आगे की संख्या गहरी न्यूरॉन के नीचे के मार्ग की संख्या को दर्शाती है। छवि पास्कल के त्रिभुज की याद दिलाती है ।
https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0
यह समस्या क्यों है?
यह प्रभाव पहली नजर में समस्या नहीं लगता है: सिद्धांत रूप में, वेट को स्वचालित रूप से इस तरह से समायोजित करना चाहिए कि नेटवर्क काम करता है। इसके अलावा, एक छवि के किनारों वैसे भी छवि मान्यता में महत्वपूर्ण नहीं हैं। यह प्रभाव हर रोज की छवि पहचान परीक्षणों में ध्यान देने योग्य नहीं हो सकता है, लेकिन यह अभी भी मुझे दो कारणों से चिंतित करता है: 1. अन्य अनुप्रयोगों के लिए सामान्यीकरण, और बहुत गहरे नेटवर्क के मामले में 2. समस्याएं ।
1. अन्य अनुप्रयोग भी हो सकते हैं, जैसे कि भाषण या ध्वनि मान्यता, जहां यह सच नहीं है कि मध्य-सबसे न्यूरॉन्स सबसे महत्वपूर्ण हैं। इस क्षेत्र में अक्सर दोषसिद्धि को लागू किया जाता है, लेकिन मैं किसी भी कागजात को खोजने में सक्षम नहीं हुआ हूं जो उस प्रभाव का उल्लेख करता है जो मैं चिंतित हूं।
2. बहुत गहरे नेटवर्क सीमा न्यूरॉन्स के भेदभाव के एक घातीय रूप से बुरे प्रभाव को नोटिस करेंगे , जिसका मतलब है कि केंद्रीय न्यूरॉन्स को परिमाण के कई क्रमों द्वारा ओवररेक्ट किया जा सकता है (कल्पना करें कि हमारे पास है
अब हम कल्पना करते हैं कि हम छोटी मात्रा में सभी न्यूरॉन्स को खराब कर सकते हैं। केंद्रीय न्यूरॉन्स बढ़त न्यूरॉन्स की तुलना में उत्पादन को परिमाण के कई आदेशों द्वारा और अधिक मजबूती से बदलने का कारण बनेंगे। मेरा मानना है कि सामान्य अनुप्रयोगों के लिए, और बहुत गहरे नेटवर्क के लिए, मेरी समस्या के आसपास के तरीके खोजने चाहिए?