यहाँ प्रमुख शब्द पादरी और पैमाने हैं । एक साधारण उदाहरण के रूप में, कल्पना कीजिए कि आप एक तस्वीर से किसी व्यक्ति की उम्र का अनुमान लगाने की कोशिश कर रहे हैं। छवियों और उम्र के डेटासेट के साथ, आप भविष्यवाणियों को बनाने के लिए एक गहन-सीखने वाले मॉडल को प्रशिक्षित कर सकते हैं। यह वास्तव में वास्तव में अक्षम है क्योंकि 90% छवि बेकार है, और केवल व्यक्ति के साथ क्षेत्र वास्तव में उपयोगी है। विशेष रूप से, व्यक्ति का चेहरा, उनका शरीर और शायद उनके कपड़े।
दूसरी ओर, आप पहले व्यक्ति के लिए बाउंडिंग बॉक्स निकालने, छवि को क्रॉप करने और उसके बाद नेटवर्क से गुजरने के लिए पहले से प्रशिक्षित ऑब्जेक्ट डिटेक्शन नेटवर्क का उपयोग कर सकते हैं। यह प्रक्रिया कई कारणों से आपके मॉडल की सटीकता में काफी सुधार करेगी:
1) सभी नेटवर्क संसाधन (यानी वजन) उम्र की भविष्यवाणी के वास्तविक कार्य पर ध्यान केंद्रित कर सकते हैं, जैसा कि पहले व्यक्ति को पहले खोजने के लिए किया गया था। यह विशेष रूप से महत्वपूर्ण है क्योंकि व्यक्ति के चेहरे में उपयोगी विशेषताएं हैं। अन्यथा, बेहतर फीचर्स जिनकी आपको जरूरत है, पहले कुछ परतों में खो सकते हैं। सिद्धांत रूप में एक बड़ा-पर्याप्त नेटवर्क इसे हल कर सकता है, लेकिन यह काफी अक्षम होगा। फसली छवि भी मूल छवि की तुलना में काफी अधिक नियमित है। जबकि मूल छवि में एक टन का शोर होता है, इसके तर्क में फसली छवि की विसंगतियों का उद्देश्य के साथ बहुत अधिक संबंध है।
2) फसली छवि को समान पैमाने पर करने के लिए सामान्यीकृत किया जा सकता है । यह स्केलिंग मुद्दों के साथ दूसरे नेटवर्क सौदे में मदद करता है, क्योंकि मूल छवि में, लोग निकट या दूर हो सकते हैं। पहले से सामान्य करने का पैमाना सामान्य बनाता है ताकि क्रॉप्ड इमेज की गारंटी हो कि उसमें एक ऐसा व्यक्ति हो जो पूरी क्रॉप्ड इमेज भरता हो (अगर दूर थे तो पिक्सलेट होने के बावजूद)। यह देखने के लिए कि यह कैसे पैमाने पर मदद कर सकता है, एक क्रॉप्ड बॉडी जो मूल छवि की आधी चौड़ाई और ऊंचाई है प्रक्रिया के लिए 4x कम पिक्सल है, और इसलिए इस छवि पर लागू एक ही नेटवर्क में प्रत्येक परत पर मूल नेटवर्क के ग्रहणशील क्षेत्र 4x होगा।
उदाहरण के लिए, कागल फेफड़े की प्रतियोगिता में, शीर्ष समाधानों में एक सामान्य विषय था फेफड़े के चित्रों पर किसी प्रकार की पूर्वप्रक्रिया करना, जिसने उन्हें जितना संभव हो उतना काट दिया और प्रत्येक फेफड़े के घटकों को अलग कर दिया। यह 3 डी छवियों में विशेष रूप से महत्वपूर्ण है क्योंकि प्रभाव घन है: प्रत्येक आयाम का 20% निकालने से, आपको लगभग आधे पिक्सेल से छुटकारा मिलता है!