सीएनएन में डालने से पहले हमें छवियों को सामान्य करने की आवश्यकता क्यों है?

मुझे यह कारण स्पष्ट नहीं है कि हम CNN के लिए छवि को सामान्य करते हैं (छवि - mean_image)? धन्यवाद!

deep-learning conv-neural-network image-processing

पहला नोट: आपको वास्तव में प्रत्येक फीचर (पिक्सेल) मान के मानक विचलन द्वारा भी विभाजित किया जाना चाहिए। माध्य केंद्रों को 0 तक घटाना और मानक विचलन द्वारा विभाजित करना किसी भी माप की गई सुविधा को मानक विचलन की संख्या को माध्य से दूर कर देता है।

अपने प्रश्न का उत्तर देने के लिए: इस बात पर विचार करें कि एक तंत्रिका नेटवर्क कैसे अपना वजन सीखता है। प्रशिक्षण के उदाहरण के माध्यम से पूरे नेटवर्क में बैकप्रोपेगेशन से लेकर विभिन्न वेट मैट्रिक्‍स तक गणना की गई सी (एनएन) को लगातार क्रमिक त्रुटि वाले वैक्टर (एक सीखने की दर से गुणा) द्वारा सीखा जाता है।

यहां ध्यान देने वाली बात यह है कि "एक सीखने की दर से गुणा"।

यदि हम अपने इनपुट प्रशिक्षण वैक्टर को मापते नहीं हैं, तो फीचर मानों के हमारे वितरण की सीमाएँ प्रत्येक सुविधा के लिए अलग-अलग होंगी, और इस प्रकार सीखने की दर प्रत्येक आयाम में सुधार का कारण बनेगी जो एक दूसरे से अलग (आनुपातिक रूप से बोलने) में भिन्न होगी। हम दूसरे में कम करते हुए एक वजन आयाम में सुधार की भरपाई कर सकते हैं।

यह गैर-आदर्श है क्योंकि हम अपने आप को एक दोलन (लागत (भार) अंतरिक्ष में बेहतर मैक्सिमा पर केंद्र में असमर्थ) या धीमी गति से चलती (बेहतर मैक्सिमा प्राप्त करने के लिए बहुत धीमी गति से यात्रा) में पा सकते हैं।

यह निश्चित रूप से प्रति-वजन सीखने की दर के लिए संभव है, लेकिन पहले से ही जटिल नेटवर्क में पेश करने के लिए यह अभी भी अधिक हाइपरपैरामीटर है जिसे हमें खोजने के लिए अनुकूलित करना होगा। आम तौर पर सीखने की दर स्केलर होती है।

इस प्रकार हम एनएन (या किसी भी ढाल आधारित) एल्गोरिथ्म में इनपुट के रूप में उपयोग करने से पहले छवियों को सामान्य करने का प्रयास करते हैं।

— lollercoaster
स्रोत

रंग छवियों के बारे में क्या? क्या मैं इसे प्रत्येक रंग चैनल के लिए करता हूँ? कि रंग वितरण गड़बड़ नहीं होगा?

— user10024395

यकीन मानिए आप हां करने वाले हैं। आप बस कुछ ऐसा कर सकते हैं:(image - image.mean()) / (image.std() + 1e-8)

— JohnAllen

क्या यह वास्तव में प्रशिक्षण के लिए सहायक है? मैं ऑब्जेक्ट डिटेक्टर का प्रशिक्षण ले रहा हूं, और इस फिटर्स का उपयोग करके, छवि (ओं) को वास्तव में भ्रमित कर रहा है, इसकी वस्तुओं को देखने के लिए कठिन है जो मैं पता लगा रहा हूं

— डार्लिन

यह सीखने की क्षमता और सटीकता के मामले में प्रशिक्षण के लिए काफी मददगार है - यह आपके लिए नहीं है कि यह मॉडल के लिए है :) आप गैर-सामान्यीकृत छवि को आउटपुट करना चाहते हैं जब आप डिबगिंग कर रहे हों ताकि यह आपकी मानव आंखों के लिए सामान्य प्रतीत हो।

— लॉलेरकोस्टर