जवाबों:
पहला नोट: आपको वास्तव में प्रत्येक फीचर (पिक्सेल) मान के मानक विचलन द्वारा भी विभाजित किया जाना चाहिए। माध्य केंद्रों को 0 तक घटाना और मानक विचलन द्वारा विभाजित करना किसी भी माप की गई सुविधा को मानक विचलन की संख्या को माध्य से दूर कर देता है।
अपने प्रश्न का उत्तर देने के लिए: इस बात पर विचार करें कि एक तंत्रिका नेटवर्क कैसे अपना वजन सीखता है। प्रशिक्षण के उदाहरण के माध्यम से पूरे नेटवर्क में बैकप्रोपेगेशन से लेकर विभिन्न वेट मैट्रिक्स तक गणना की गई सी (एनएन) को लगातार क्रमिक त्रुटि वाले वैक्टर (एक सीखने की दर से गुणा) द्वारा सीखा जाता है।
यहां ध्यान देने वाली बात यह है कि "एक सीखने की दर से गुणा"।
यदि हम अपने इनपुट प्रशिक्षण वैक्टर को मापते नहीं हैं, तो फीचर मानों के हमारे वितरण की सीमाएँ प्रत्येक सुविधा के लिए अलग-अलग होंगी, और इस प्रकार सीखने की दर प्रत्येक आयाम में सुधार का कारण बनेगी जो एक दूसरे से अलग (आनुपातिक रूप से बोलने) में भिन्न होगी। हम दूसरे में कम करते हुए एक वजन आयाम में सुधार की भरपाई कर सकते हैं।
यह गैर-आदर्श है क्योंकि हम अपने आप को एक दोलन (लागत (भार) अंतरिक्ष में बेहतर मैक्सिमा पर केंद्र में असमर्थ) या धीमी गति से चलती (बेहतर मैक्सिमा प्राप्त करने के लिए बहुत धीमी गति से यात्रा) में पा सकते हैं।
यह निश्चित रूप से प्रति-वजन सीखने की दर के लिए संभव है, लेकिन पहले से ही जटिल नेटवर्क में पेश करने के लिए यह अभी भी अधिक हाइपरपैरामीटर है जिसे हमें खोजने के लिए अनुकूलित करना होगा। आम तौर पर सीखने की दर स्केलर होती है।
इस प्रकार हम एनएन (या किसी भी ढाल आधारित) एल्गोरिथ्म में इनपुट के रूप में उपयोग करने से पहले छवियों को सामान्य करने का प्रयास करते हैं।
(image - image.mean()) / (image.std() + 1e-8)