क्या छवि प्रारूप (png, jpg, gif) प्रभावित करता है कि एक छवि मान्यता तंत्रिका जाल कैसे प्रशिक्षित किया जाता है?


23

मुझे पता है कि गहरी, जटिल तंत्रिका जाल के साथ छवि मान्यता, छवि वर्गीकरण आदि के संबंध में बहुत सारे अग्रिम हैं।

लेकिन अगर मैं पीएनजी छवियों पर एक शुद्ध प्रशिक्षण देता हूं, तो क्या यह केवल इतनी एनकोडेड छवियों के लिए काम करेगा ? क्या अन्य छवि गुण इसे प्रभावित करते हैं? (अल्फा चैनल, इंटरलेसिंग, रिज़ॉल्यूशन, आदि?)


2
मुझे विश्वास का जवाब देने के लिए छवियों के आंकड़ों के साथ पर्याप्त अनुभव नहीं है, लेकिन मैं उम्मीद करूंगा कि विभिन्न मॉडल पूरी तरह से अलग-अलग योजनाओं का उपयोग करके छवियों को कोड में बदल सकते हैं, जिनमें से कुछ हानिप्रद जेपीईजी संपीड़न, अल्फा चैनल, आदि से प्रभावित होंगे। , और जिनमें से कुछ मॉडल-विशिष्ट होने के विवरण के साथ नहीं होंगे। मुझे पता है कि दोनों मॉडल मौजूद हैं जो प्रत्येक पिक्सेल को एक विशेषता और मॉडल के रूप में मानते हैं जो छवियों को क्षेत्रों में ले जाते हैं और सुविधाओं के रूप में क्षेत्र गुणों का उपयोग करते हैं।
कोडियोलॉजिस्ट

जवाबों:


20

संक्षिप्त उत्तर नहीं है

जिस प्रारूप में छवि एन्कोड की गई है, उसकी गुणवत्ता के साथ क्या करना है। तंत्रिका नेटवर्क अनिवार्य रूप से गणितीय मॉडल हैं जो बहुत सारे और बहुत सारे ऑपरेशन करते हैं (मैट्रिक्स गुणन, तत्व-वार जोड़ और मानचित्रण कार्य)। एक तंत्रिका नेटवर्क एक Tensor को इसके इनपुट (यानी एक बहुआयामी सरणी) के रूप में देखता है । यह आकार आमतौर पर 4-डी (प्रति बैच की संख्या, छवि की ऊंचाई, छवि की चौड़ाई, चैनलों की संख्या) है।

विभिन्न छवि प्रारूप (विशेष रूप से हानिरहित) विभिन्न इनपुट सरणियों का उत्पादन कर सकते हैं, लेकिन कड़ाई से बोलने वाले तंत्रिका जाल अपने इनपुट में सरणियों को देखते हैं, और छवियां नहीं


4

जबकि Djib2011 का उत्तर सही है, मैं आपके प्रश्न को इस बात पर अधिक ध्यान देता हूं कि छवि गुणवत्ता / गुण सामान्य रूप से तंत्रिका नेटवर्क सीखने को कैसे प्रभावित करते हैं। इस विषय (afaik) में केवल बहुत कम शोध है, लेकिन भविष्य में इस पर और अधिक शोध हो सकता है। मुझे केवल यह लेख मिला । फिलहाल समस्या यह है कि यह व्यावहारिक अनुप्रयोगों में दिखने वाली समस्या है और अकादमिक अनुसंधान क्षेत्र में कम है। मुझे एक वर्तमान पॉडकास्ट याद है जहां शोधकर्ताओं ने देखा कि तस्वीर लेने के लिए इस्तेमाल किया जाने वाला कैमरा भी बड़ा प्रभाव डाल सकता है।


क्या आप मुझे पॉडकास्ट की ओर इशारा कर सकते हैं?
डेविड अर्नेस्ट

यह "टॉकिंग मशीन" का एक घंटे का एपिसोड है, जहाँ उनकी अफ्रीका में शोध करने वाली मशीन सीखने वाले एक शोधकर्ता के साथ चर्चा है (ca. mid to end) iTunes लिंक: itunes.apple.com/de/podcast/talking-machines/…
बोबिपुगी

2

यह Djib2011 के पहले उत्तर पर एक दरार है। संक्षिप्त उत्तर नहीं होना चाहिए। लंबे समय तक - सबसे पहले तस्वीरें हमेशा एक टेंसर के रूप में निम्नानुसार एन्कोडेड होती हैं। एक छवि कई पिक्सेल होती है। यदि फोटो को m रो और n कॉलम माना जाता है, तो प्रत्येक पिक्सेल को पंक्ति और कॉलम स्थान द्वारा निर्दिष्ट किया जाता है, जो कि युग्म (m, n) द्वारा होता है। विशेष रूप से एम * एन पिक्सल हैं जो 'छोटी' तस्वीरों के लिए बहुत बड़े हैं। फोटो का प्रत्येक पिक्सेल शून्य और एक (कालापन की तीव्रता) के बीच एक संख्या से एन्कोड किया जाता है यदि फोटो काला और सफेद है। यदि फोटो रंगीन है, तो इसे तीन नंबरों (RGB तीव्रता) द्वारा एनकोड किया गया है। तो एक टेंसर के साथ एक हवा है जो या तो 1xmxn या 3xmxn है। छवि पहचान CNN के माध्यम से की जाती है, जो इस तथ्य का लाभ उठाती है कि तस्वीरें पिक्सेल से पिक्सेल में बहुत अधिक नहीं बदलती हैं, सेकफिल्टर और पूलिंग के माध्यम से डेटा। तो मुद्दा यह है कि सीएनएन का काम फोटो के अविश्वसनीय रूप से बड़ी संख्या में डेटा (या सुविधाओं) को एक छोटी संख्या में मानों में संकुचित करके है। इसलिए आप जो भी फॉर्मेट शुरू करते हैं, फोटो के डेटा को और कम करके CNN की शुरुआत होती है। इसलिए फोटो के प्रतिनिधित्व के आकार से प्रति स्वतंत्रता।
हालांकि, एक सीएनएन यह मांग करेगा कि इसके माध्यम से चलने वाली सभी छवियां समान आकार की हैं। तो वहाँ निर्भरता है कि छवि कैसे बचाया जाता है, इसके आधार पर बदल जाएगी। इसके अलावा, इस हद तक कि एक ही आकार के अलग-अलग फ़ाइल प्रारूप, उनके टेंसरों के लिए अलग-अलग मान पैदा करते हैं, एक ही CNN मॉडल का उपयोग विभिन्न तरीकों द्वारा संग्रहीत फ़ोटो की पहचान करने के लिए नहीं किया जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.