क्या एक दृढ़ तंत्रिका नेटवर्क विभिन्न आकारों की इनपुट छवियों के रूप में ले सकता है?

मैं छवि मान्यता के लिए एक कनवल्शन नेटवर्क पर काम कर रहा हूं, और मैं सोच रहा था कि क्या मैं विभिन्न आकारों की छवियों को इनपुट कर सकता हूं (हालांकि बहुत अलग नहीं है)।

इस परियोजना पर: https://github.com/harvardnlp/im2markup

वे कहते हैं:

and group images of similar sizes to facilitate batching

इसलिए प्रीप्रोसेसिंग के बाद भी, चित्र अभी भी विभिन्न आकारों के हैं, जो समझ में आता है क्योंकि वे सूत्र के कुछ हिस्से को नहीं काटेंगे।

क्या विभिन्न आकारों का उपयोग करने में कोई समस्या है? अगर वहाँ हैं, तो मुझे इस समस्या से कैसे संपर्क करना चाहिए (क्योंकि सूत्र सभी एक ही छवि आकार में फिट नहीं होंगे)?

किसी भी इनपुट की बहुत सराहना की जाएगी

neural-networks conv-neural-network computer-vision

— ग्राहम स्लीक
स्रोत

जवाबों:

क्या विभिन्न आकारों का उपयोग करने में कोई समस्या है? अगर वहाँ हैं, तो मुझे इस समस्या से कैसे संपर्क करना चाहिए (क्योंकि सूत्र सभी एक ही छवि आकार में फिट नहीं होंगे)?

यह तंत्रिका नेटवर्क की वास्तुकला पर निर्भर करता है। कुछ आर्किटेक्चर मानते हैं कि सभी छवियों का आयाम समान है, अन्य (जैसे im2markup) ऐसी धारणा नहीं बनाते हैं। तथ्य यह है कि im2markup विभिन्न चौड़ाई की छवियों की अनुमति देता है जो मुझे विश्वास है कि किसी भी मुद्दे को नहीं लाते हैं, क्योंकि वे एक RNN का उपयोग करते हैं जो कनवल्शन लेयर के आउटपुट के माध्यम से स्कैन करता है।

बैचिंग को सुविधाजनक बनाने के लिए समान आकार के समूह चित्र

यह आमतौर पर बहुत अधिक पैडिंग जोड़ने से बचने के लिए चीजों को गति देने के लिए है।

— फ्रेंक डर्नोनकोर्ट
स्रोत

क्या आपने प्रीप्रोसेसिंग अवस्था में केवल छवियों को स्केल करने पर विचार किया है? सहज रूप से, एक स्केल छवि का सामना करने वाला मानव अभी भी समान सुविधाओं और वस्तुओं को पहचानने में सक्षम होगा, और कोई स्पष्ट कारण नहीं है कि एक सीएनएन स्केल स्केल छवि पर एक ही काम करने में सक्षम क्यों होगा।

मुझे लगता है कि छवियों को एक ही आकार में स्केल करना आसान हो सकता है, जो विभिन्न आकारों की छवियों को संभालने के लिए नेटवर्क बनाने की कोशिश कर रहा हो, जो मुझे लगता है कि 'मूल शोध' भूमि में होगा। आप निश्चित रूप से किसी भी आकार के काफिले की छवियों को बनाए रख सकते हैं, बिना मुंहतोड़ जवाब दिए। हालांकि, एक काफनेट का आउटपुट आमतौर पर किसी प्रकार का क्लासिफायरियर होगा, और यह संभवतः कम अच्छी तरह से काम करेगा, यदि आप अलग-अलग आकार के इनपुट में फीड करते हैं, तो मैं कल्पना करूंगा।

एक और दृष्टिकोण सिर्फ शून्य के साथ छवियों को पैड करना होगा। लेकिन सहज रूप से कल्पना करें कि आप या तो एक छोटी सी तस्वीर देख रहे हैं, काले रंग की सीमाओं के साथ गद्देदार, या आप ज़ूम इन कर सकते हैं, इसलिए यह आपके दृश्य क्षेत्र में एक उचित चाप को घटाता है। आप क्या करेंगे? जो देखने में आसान है?

— ह्यूग पर्किन्स
स्रोत

स्केलिंग से छवि की गुणवत्ता में त्रुटि और विकृति उत्पन्न करने वाली विशेषताओं में कमी नहीं आती है, यदि पहले से ही छवि कम रिज़ॉल्यूशन वाली है, तो स्केलिंग छवि की गुणवत्ता को एक ऐसे बिंदु तक कम कर देगी जहां मानव आसानी से पहचान नहीं सकता है, लेकिन अनचाही छवि पहचानने योग्य हो सकती है।

— विक्रम भट

क्या आपके पास एक ऐसी छवि का उदाहरण है जो मनुष्यों के लिए पहचानने योग्य है, जब तक कि आप स्केलिंग लागू नहीं करते हैं, और तब पहचान नहीं हो जाती है?

— ह्यूग पर्किंस

मैं यह भी सोच रहा हूँ। जब मैं करियर से एक मौजूदा प्रशिक्षित मॉडल का उपयोग करने की कोशिश कर रहा हूं, तो मैं सोच रहा हूं कि मैं या तो इनसेप्टिव 3 इंटरफ़ेस (32x32 से 299x299 -> CIFAR10) फिट करने के लिए छवि को स्केल कर सकता हूं। मुझे लगता है कि स्केलिंग गुणवत्ता खो देता है। लेकिन मुझे लगता है कि ऐसा करने का उपयुक्त तरीका आउटपुट एफसी को बाहर करना और इनपुट आकार को 32x32 तक निर्दिष्ट करना होगा। मुझे लगता है कि इसके लिए फिर से प्रयास करना होगा, क्योंकि इनपुट लेयर वेट यादृच्छिक होगा।

— जॉय कार्सन

स्केलिंग गुणवत्ता को कम करती है, लेकिन सामान्यीकरण में मदद करती है: ऐसे कई कागजात हैं जो प्रशिक्षण से पहले गॉस ब्लर लागू होने पर मान्यता में ध्यान देने योग्य लाभ का उल्लेख करते हैं । सहज रूप से आपके पास अधिक भिन्न इनपुट नमूने हैं जो एकल "धुंधली" छवि से मिलते हैं, इसलिए वर्गीकरण को अधिक मजबूत बनाते हैं।

— मैथ्यू