गहरी शिक्षा में वर्ग छवियों का कारण

वीजीजी, रेसनेट आदि जैसे अधिकांश उन्नत गहन शिक्षण मॉडल में इनपुट के रूप में चौकोर चित्रों की आवश्यकता होती है, आमतौर पर पिक्सेल आकार के । $224x224$

वहाँ एक कारण है कि इनपुट, बराबर आकार के हो गया है या मैं कहना के साथ एक convnet मॉडल का निर्माण कर सकते है के रूप में अच्छी तरह से (अगर मैं उदाहरण के लिए चेहरे की पहचान करना चाहते हैं और मैं चित्र चित्र हैं)? $100x200$

क्या बड़ा पिक्सेल आकार के साथ लाभ में वृद्धि हुई है, कहते हैं ? $512x512$

deep-learning image-classification image-recognition

— spore234
स्रोत

सामान्य रूप से कार्य करने के लिए दृढ़ तंत्रिका नेटवर्क के लिए विशिष्ट पिक्सेल आयामों की कोई आवश्यकता नहीं है। यह संभावना है कि मूल्यों को व्यावहारिक कारणों के लिए चुना गया है - जैसे कि छवि विवरण का उपयोग करने और मापदंडों की संख्या और प्रशिक्षण आकार की आवश्यकता के बीच एक समझौता।

इसके अलावा, यदि स्रोत डेटा में अलग-अलग पहलू अनुपात, कुछ चित्र, कुछ परिदृश्य की एक श्रृंखला होती है, तो आमतौर पर केंद्र में लक्ष्य वस्तु होती है, तो वर्ग फसल को बीच से लेना एक उचित समझौता हो सकता है।

जब आप इनपुट छवि का आकार बढ़ाते हैं, तो आप उस इनपुट को संसाधित करने के लिए शोर और विचरण की मात्रा भी बढ़ाएंगे, जिसके लिए नेटवर्क से निपटने की आवश्यकता होगी। इसका मतलब यह हो सकता है कि अधिक परतें - दोनों दृढ़ और पूलिंग। इसका मतलब यह भी हो सकता है कि आपको अधिक प्रशिक्षण उदाहरणों की आवश्यकता है, और निश्चित रूप से प्रत्येक प्रशिक्षण उदाहरण बड़ा होगा। साथ में, ये गणना संसाधनों को बढ़ाते हैं जिन्हें आपको प्रशिक्षण पूरा करने की आवश्यकता होती है। हालांकि, यदि आप इस आवश्यकता को पार कर सकते हैं, तो यह संभव है कि आप किसी भी कार्य के लिए अधिक सटीक मॉडल के साथ समाप्त हो जाएंगे, जहां अतिरिक्त पिक्सेल फर्क कर सकते हैं।

क्या आप उच्च संकल्प चाहते हैं, इसके लिए अंगूठे का एक संभावित नियम है, यदि आपके नेटवर्क के लक्ष्य के लिए, एक मानव विशेषज्ञ अतिरिक्त संकल्प का उपयोग कर सकता है और कार्य में बेहतर प्रदर्शन कर सकता है। यह प्रतिगमन प्रणालियों में मामला हो सकता है, जहां नेटवर्क छवि से कुछ संख्यात्मक मात्रा प्राप्त कर रहा है - उदाहरण के लिए चेहरे की विशेषताओं के बीच की दूरी के रूप में बायोमेट्रिक्स निकालने वाली चेहरा पहचान। यह छवि-प्रसंस्करण कार्यों के लिए भी वांछनीय हो सकता है जैसे कि स्वचालित मास्किंग - इन कार्यों के लिए कला परिणाम की स्थिति अभी भी व्यावसायिक छवियों की तुलना में कम संकल्प हो सकती है जहां हम उन्हें अभ्यास में लागू करना चाहते हैं।

— नील स्लेटर
स्रोत