सीएनएन में डालने से पहले हमें छवियों को सामान्य करने की आवश्यकता क्यों है?


जवाबों:


34

पहला नोट: आपको वास्तव में प्रत्येक फीचर (पिक्सेल) मान के मानक विचलन द्वारा भी विभाजित किया जाना चाहिए। माध्य केंद्रों को 0 तक घटाना और मानक विचलन द्वारा विभाजित करना किसी भी माप की गई सुविधा को मानक विचलन की संख्या को माध्य से दूर कर देता है।

अपने प्रश्न का उत्तर देने के लिए: इस बात पर विचार करें कि एक तंत्रिका नेटवर्क कैसे अपना वजन सीखता है। प्रशिक्षण के उदाहरण के माध्यम से पूरे नेटवर्क में बैकप्रोपेगेशन से लेकर विभिन्न वेट मैट्रिक्‍स तक गणना की गई सी (एनएन) को लगातार क्रमिक त्रुटि वाले वैक्टर (एक सीखने की दर से गुणा) द्वारा सीखा जाता है।

यहां ध्यान देने वाली बात यह है कि "एक सीखने की दर से गुणा"।

यदि हम अपने इनपुट प्रशिक्षण वैक्टर को मापते नहीं हैं, तो फीचर मानों के हमारे वितरण की सीमाएँ प्रत्येक सुविधा के लिए अलग-अलग होंगी, और इस प्रकार सीखने की दर प्रत्येक आयाम में सुधार का कारण बनेगी जो एक दूसरे से अलग (आनुपातिक रूप से बोलने) में भिन्न होगी। हम दूसरे में कम करते हुए एक वजन आयाम में सुधार की भरपाई कर सकते हैं।

यह गैर-आदर्श है क्योंकि हम अपने आप को एक दोलन (लागत (भार) अंतरिक्ष में बेहतर मैक्सिमा पर केंद्र में असमर्थ) या धीमी गति से चलती (बेहतर मैक्सिमा प्राप्त करने के लिए बहुत धीमी गति से यात्रा) में पा सकते हैं।

यह निश्चित रूप से प्रति-वजन सीखने की दर के लिए संभव है, लेकिन पहले से ही जटिल नेटवर्क में पेश करने के लिए यह अभी भी अधिक हाइपरपैरामीटर है जिसे हमें खोजने के लिए अनुकूलित करना होगा। आम तौर पर सीखने की दर स्केलर होती है।

इस प्रकार हम एनएन (या किसी भी ढाल आधारित) एल्गोरिथ्म में इनपुट के रूप में उपयोग करने से पहले छवियों को सामान्य करने का प्रयास करते हैं।


1
रंग छवियों के बारे में क्या? क्या मैं इसे प्रत्येक रंग चैनल के लिए करता हूँ? कि रंग वितरण गड़बड़ नहीं होगा?
user10024395

2
यकीन मानिए आप हां करने वाले हैं। आप बस कुछ ऐसा कर सकते हैं:(image - image.mean()) / (image.std() + 1e-8)
JohnAllen

क्या यह वास्तव में प्रशिक्षण के लिए सहायक है? मैं ऑब्जेक्ट डिटेक्टर का प्रशिक्षण ले रहा हूं, और इस फिटर्स का उपयोग करके, छवि (ओं) को वास्तव में भ्रमित कर रहा है, इसकी वस्तुओं को देखने के लिए कठिन है जो मैं पता लगा रहा हूं
डार्लिन

यह सीखने की क्षमता और सटीकता के मामले में प्रशिक्षण के लिए काफी मददगार है - यह आपके लिए नहीं है कि यह मॉडल के लिए है :) आप गैर-सामान्यीकृत छवि को आउटपुट करना चाहते हैं जब आप डिबगिंग कर रहे हों ताकि यह आपकी मानव आंखों के लिए सामान्य प्रतीत हो।
लॉलेरकोस्टर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.