संवादी तंत्रिका नेटवर्क स्केल संवेदनशीलता

उदाहरण के लिए, मान लें कि हम किसी व्यक्ति की तस्वीर के आधार पर एक आयु अनुमानक का निर्माण कर रहे हैं। नीचे हम दो लोग सूट में हैं, लेकिन पहला वाला दूसरे से स्पष्ट रूप से छोटा है।

_{(स्रोत: tinytux.com )}

इसमें बहुत सारी विशेषताएं हैं जो इसका मतलब है, उदाहरण के लिए चेहरे की संरचना। हालांकि सबसे ज्यादा बताने वाला फीचर सिर के आकार से लेकर शरीर के आकार का अनुपात है :

_{(स्रोत: wikimedia.org )}

तो मान लीजिए कि हमने व्यक्ति की उम्र का अनुमान लगाने के लिए एक सीएनएन प्रतिगमन को प्रशिक्षित किया है। बहुत से उम्र के भविष्यवक्ताओं के बारे में, जो मैंने कोशिश की है, बच्चे की उपरोक्त छवि भविष्यवाणियों को यह सोचकर मूर्ख बनाने की लगती है कि वह अधिक उम्र का है, सूट और संभावना के कारण क्योंकि वे मुख्य रूप से चेहरे पर भरोसा करते हैं:

मैं सोच रहा हूँ कि कैसे एक वैनिला CNN आर्किटेक्चर सिर के अनुपात को धड़ से अलग कर सकता है?

एक क्षेत्रीय RCNN की तुलना में, जो शरीर और सिर पर बाउंडिंग बॉक्स प्राप्त करने में सक्षम है, क्या वेनिला CNN हमेशा खराब प्रदर्शन करेगा?

वैनिला CNN में वैश्विक चपटे होने से ठीक पहले (यानी सभी दृढ़ संकल्पों के बाद), प्रत्येक आउटपुट में एक समान ग्रहणशील क्षेत्र होता है, जिसमें पैमाने की भावना होनी चाहिए। मुझे पता है कि तेजी से RCNN इस स्तर पर बाउंडिंग बॉक्स प्रस्ताव बनाकर इसका फायदा उठाता है, ताकि सभी पूर्व-निर्धारित फिल्टर स्वचालित रूप से सभी पैमानों को प्रशिक्षित कर सकें।

तो, मुझे लगता है कि वेनिला सीएनएन धड़ आकार के लिए सिर के अनुपात का पता लगाने में सक्षम होना चाहिए? क्या यह सही है? यदि ऐसा है, तो इस तथ्य का फायदा उठाने के लिए एक तेज RCNN ढांचे का उपयोग करने का एकमात्र लाभ है जो लोगों का पता लगाने पर पहले से प्रशिक्षित हो सकता है?

neural-networks computer-vision

— एलेक्स आर।
स्रोत

क्या आप जानते हैं कि वास्तव में आपकी उम्र बढ़ने वाले व्यक्ति कहाँ असफल होते हैं? आपको क्यों लगता है कि यह सिर के आकार का अनुपात है? क्या आपने मध्य परतों के आउटपुट को देखा?

— अक्कल

@ अक्षल मुझे नहीं लगता कि उन्होंने एक सीएनएन प्रशिक्षण का प्रयोग किया। जो मैंने समझा है, वह मौजूदा वेब सेवाओं के साथ परीक्षण कर रहा है: "बहुत सारे उम्र के भविष्यवक्ताओं में जो मैंने कोशिश की है [..]"।

— 11

जवाबों:

सबसे पहले, एक बहुत ही दिलचस्प सवाल पोस्ट करने के लिए धन्यवाद।

शीघ्र ही इसका उत्तर देने के लिए, एक वेनिला कंफेट ने एक तस्वीर से उम्र की भविष्यवाणी करने के लिए अंत-2-प्रशिक्षित प्रशिक्षित किया , जो आमतौर पर आपके द्वारा पोस्ट की गई छवियों जैसे गलत-वर्गीकृत करने के लिए प्रवण होगा । दूसरी बात, ध्यान दें कि सही रूप में एक व्यक्ति की आयु का आकलन एक लगभग असंभव काम है ¹ ।

कुछ ऑब्जेक्ट डिटेक्टरों का उपयोग करके आपके प्रस्तावित दृष्टिकोण से मुख्य अंतर (जैसा कि यह RCNN, तेज़ RCNN, YOLO या SSD है) यह है कि आप मॉडल को प्रशिक्षित करने के लिए विभिन्न जानकारी का उपयोग कर रहे हैं। सीएनएन को केवल छवियों पर प्रशिक्षित किया जाता है और सभी आवश्यक सुविधाओं का पता लगाने की आवश्यकता होती है। यह विभिन्न चेहरे की विशेषताओं को खोजने की सबसे अधिक संभावना है, लेकिन यह कपड़ों पर भी निर्भर करेगा और शायद दृश्य सुविधाओं (बच्चों को अक्सर कुछ खिलौनों के साथ तस्वीर में हो सकता है, वयस्कों को कार्यालय के वातावरण आदि में अधिक संभावना होगी)। ये सुविधाएँ आपके प्रतिरूप से अधिक मजबूत नहीं होंगी।

दूसरी ओर, यदि आप नेटवर्क को "धड़" और "हेड" के रूप में वस्तुओं का स्पष्ट रूप से पता लगाने के लिए प्रशिक्षित करते हैं, तो आप अतिरिक्त जानकारी प्रदान कर रहे हैं कि ये ऑब्जेक्ट कार्य के लिए महत्वपूर्ण हैं, और इस तरह समस्या ^{2 को} सरल बनाते हैं ।

हालांकि सिर और धड़ का पता लगाने और फिर बाउंडिंग बॉक्स के आकार के अनुपात का मूल्यांकन दिलचस्प लगता है, मैं कई बाधाओं को देख सकता हूं:

डेटा प्राप्त करना: मुझे बड़े डेटासेट की उपलब्धता के बारे में पता नहीं है, जहाँ उम्र और बाउंडिंग बॉक्स मौजूद होंगे।
अपूर्ण FOV: अधिकांश छवियों में (उदाहरण के लिए आपके दोनों उदाहरण), लोगों को संपूर्ण प्रदर्शित नहीं किया जाता है। आपको इस तथ्य से निपटना होगा कि धड़ बाउंडिंग बॉक्स हमेशा केवल सही नहीं होंगे क्योंकि व्यक्ति का हिस्सा छवि में नहीं है और नेट को यह अनुमान लगाना होगा कि कितना बड़ा हिस्सा गायब है (और जमीनी सच्चाई बाउंडिंग बॉक्स सबसे अधिक है। संभावना है कि इस जानकारी पर कब्जा नहीं)। इसके अलावा, उपरोक्त ऑब्जेक्ट डिटेक्टर हमेशा आंशिक वस्तुओं की भविष्यवाणियों को ठीक से संभाल नहीं पाते हैं। यह मॉडल में बहुत अधिक शोर का परिचय दे सकता है।
विभिन्न पोज़: धड़-से-सिर का अनुपात, सामने और बगल के लोगों के लिए बहुत अलग होगा।
वयस्क: ऐसा लगता है कि अनुपात 0-21 के बीच की उम्र का अनुमान लगाने के लिए अच्छी तरह से काम करता है, लेकिन मैं यह नहीं देखता कि यह वयस्कों की उम्र की भविष्यवाणी करने में कैसे मदद करेगा (मुझे लगता है कि अनुपात अधिक उम्र में नहीं बदलता है)।

इन सभी समस्याओं से पता चलता है कि सिर से धड़ अनुपात भी पूरी तरह से काम नहीं कर रहा है, हालांकि यह आपके विशेष प्रतिसाद के लिए अधिक मजबूत हो सकता है।

मुझे लगता है कि इस कार्य को करने का सबसे अच्छा तरीका 1 होगा) चेहरे का पता लगाना, 2) चेहरे की फसल से ही उम्र का अनुमान लगाना (संभावित भ्रामक जानकारी को हटाता है)। ध्यान दें कि आरओआई-पूलिंग का उपयोग करते हुए कुछ आर-सीएनएन जैसे आर्किटेक्चर को यह एंड-टू-एंड करने के लिए प्रशिक्षित किया जा सकता है।

¹ यहां तक कि बहुत परिष्कृत चिकित्सा विधियों (जो व्यक्ति की तस्वीर की तुलना में बहुत अधिक जानकारीपूर्ण हैं) का उपयोग करते हुए भी यह सटीक रूप से करना संभव नहीं है। देखें और अधिक जानकारी के लिए इस Quora धागा ।

² लेख की जाँच करें नॉलेज मैटर्स: एक उदाहरण के लिए ऑप्टिमाइज़ेशन के लिए पूर्व सूचना का महत्व कैसे कार्य के बारे में कुछ मध्यवर्ती ज्ञान प्रदान करने से शिक्षण को सरल बनाया जा सकता है।

— जन कुक्कुटा
स्रोत

इस प्रश्न का उत्तर देने के लिए CNN मॉडल का एक बड़ा वर्ग है। LeNet, AlexNet, ZFNet और VGG16, GoogLeNet की तुलना में बहुत अलग तरह से व्यवहार करेंगे, जो कि विशेष रूप से R-CNN के अधिकांश काम करने के लिए बनाया गया था, CNN आर्किटेक्चर के साथ (आप GoogLeNet को इंसेप्शन के नाम से जान सकते हैं, भले ही कड़ाई से बोलने वाला इंसेप्शन सिर्फ है। मूल इकाई (सबनेटवर्क) जिस पर GoogLeNet बनाया गया है)। अंत में, ResNets अलग व्यवहार करेगा। और इन सभी आर्किटेक्चर को आयु वर्गों को वर्गीकृत करने के लिए नहीं बनाया गया था, लेकिन 1000 इमेजनेट कक्षाएं, जिनमें मनुष्यों के लिए आयु वर्ग शामिल नहीं हैं। एक हस्तांतरण सीखने का उपयोग कर सकता है(यदि आपके पास पर्याप्त प्रशिक्षण छवियां हैं) उपरोक्त व्यापक रूप से उपलब्ध प्रशिक्षित मॉडलों में से एक को प्रशिक्षित करने के लिए, और देखें कि वे कैसे प्रदर्शन करते हैं। सामान्य तौर पर, हालांकि, विशेष रूप से पुराने आर्किटेक्चर (वीजीजी 16 तक कहते हैं) में "वैश्विक विशेषताएं" सीखने में कठिन समय होता है, जिसके लिए "सिर" (पहले से ही एक जटिल विशेषता), "धड़" (एक और जटिल विशेषता) और उनके बारे में जानने की आवश्यकता होती है अनुपात (जिसमें यह भी आवश्यक है कि दो विशेषताएं एक निश्चित स्थानिक संबंध में हों)। इस तरह का सामान कैप्सूल नेटवर्क को क्या करने में सक्षम होना चाहिए था।

कॉन्वनेट्स का जन्म ठीक इसके विपरीत होने के लिए हुआ था: स्थानीय विशेषताओं के प्रति संवेदनशील और अपेक्षाकृत सापेक्ष स्थिति / पैमाने के प्रति असंवेदनशील। एक अच्छे कॉननेट को "सफेद बिल्ली" को पहचानना चाहिए कि क्या तस्वीर एक क्लोज़-अप है या एक अमेरिकी शॉट है। पूलिंग लेयर्स (जो कि इमेज के स्केल या ट्रांसलेशन में भिन्नता के प्रति संवेदनशीलता के हिस्से को हटाती हैं) के साथ कन्वेन्शनल लेयर्स (जो स्थानीय फीचर्स के प्रति संवेदनशील हैं) का संयोजन आपको एक आर्किटेक्चर देता है, जो कि इसके सबसे बुनियादी रूप में स्थानिक सीखने में बहुत अच्छा नहीं है उन वस्तुओं के बीच संबंध जो आप खोज रहे हैं। एक उदाहरण कहीं था (लेकिन मैं इसे अब और नहीं ढूँढ सकता), जहां, विभिन्न आयताकार नॉनओवरलैपिंग टाइल्स में एक बिल्ली की छवि को विभाजित करने और उन्हें एक यादृच्छिक क्रम में एक साथ रखने के बाद, सीएनएन छवि की पहचान करता रहेगाcat। यह इंगित करता है कि सीएनएन उच्च स्तरीय सुविधाओं के बीच स्थानिक संबंध की तुलना में स्थानीय विशेषताओं (बनावट या ऐसा कुछ) के प्रति अधिक संवेदनशील हैं। इसके बारे में कुछ चर्चा के लिए कैप्सूल नेटवर्क पेपर भी देखें । कनविन्स की सीमा के बारे में एक वीडियो में हिंटन ने इसका एक उदाहरण भी दिखाया ।

मेरा जंगली अनुमान यह है कि हाल के आर्किटेक्चर में से एक बच्चों से समझदार पुरुषों के लिए पूरी तरह से सक्षम (पर्याप्त डेटा दिया गया) होगा, लेकिन "सिर" और "धड़" जैसी उच्च स्तरीय विशेषताओं के बीच एक मीट्रिक संबंध पर "सीमा" के कारण नहीं। । यह कुछ सांख्यिकीय नियमितता सीखेगा, शायद मनुष्यों के लिए पूरी तरह से ध्यान देने योग्य, जो प्रशिक्षण सेट में बाल छवियों से वयस्क छवियों को अलग करता है।

— DeltaIV
स्रोत

मैं आपके उत्तर की सराहना करता हूं, लेकिन, मुझे सहमत होने में परेशानी हो रही है। RCNN आर्किटेक्चर के पास अनिवार्य रूप से ऑब्जेक्ट कॉननेट के रूप में फिल्टर की एक ही संरचना है, उदाहरण के लिए VGG और Resnet। और चूंकि RCNN पैमाने और सापेक्ष स्थिति का पता लगा सकता है, इसलिए यह निम्नानुसार है कि VGG और Resnet भी पैमाने का पता लगाने में सक्षम होना चाहिए। हालांकि, RCNN आर्किटेक्चर बॉक्स प्रस्तावों पर भरोसा करते हैं, जिनमें से वे प्रति छवि हजारों बनाते हैं, जिसके बाद प्रत्येक बॉक्स प्रस्ताव का मूल्यांकन किया जाता है। तो ऐसा लगता है कि अगर मैं इनमें से कम से कम कुछ बॉक्स प्रस्तावों को शामिल करता हूं, तो एक वैनिला सीएनएन को बेहतर पैमाने का पता लगाना चाहिए। मुझे यकीन नहीं है कि ऐसा करना आवश्यक है।

— एलेक्स आर।

RCNN CNN नहीं हैं। न केवल आप बाउंडिंग बॉक्स के लिए चयनात्मक खोज को याद करते हैं, बल्कि आप रैखिक एसवीएम और बाउंडिंग बॉक्स रेजिस्टर के चरणों को भी याद करते हैं। इसके अलावा, एलेक्सनेट के पैमाने का पता लगाने की क्षमता (जो मूल RCNN कागज में CNN का उपयोग किया जाता है), या VGG, और GoogLeNet या ResNet की क्षमता के बीच एक बड़ा अंतर है: GoNLeNet को RCNN करने के लिए ठीक-ठीक विकसित किया गया था। मुझे लगता है कि GoogLeNet और ResNet दोनों ही उम्र को वर्गीकृत करने में सक्षम होंगे, लेकिन यह जानने का कोई तरीका नहीं है कि क्या वे एक ऐसी सुविधा का उपयोग करके ऐसा करेंगे जो हमारे लिए महत्वपूर्ण है (सिर से धड़ अनुपात तक) या कुछ सांख्यिकीय 1 /

— लगाकर

2 / नियमितता जो मानव कभी नोटिस नहीं करेगा। मैं आपको प्रयोग करने और प्रयास करने का सुझाव दूंगा, लेकिन दुर्भाग्य से केवल छवि डेटाबेस का निर्माण ही अपने आप में एक शोध परियोजना होगी (जब तक आप किसी फैशन कंपनी में काम नहीं करते)।

— 20

भ्रम के लिए मेरी माफी। मुझे पता है कि वहाँ, 20 विभिन्न RCNN आर्किटेक्चर हैं, प्रत्येक का दावा है कि अन्य अप्रचलित हैं।

— एलेक्स आर।

blog.piekniewski.info/2016/12/29/can-a-deep-net-see-a-cat इसके अलावा, एक अलग मुद्दा है, लेकिन अभी भी बनावट मिलान से संबंधित है, और अधिक सम्मानित शोधकर्ताओं से, arxiv.org/pdf/ 1703.06857

— 8

खैर, यह सब आपके डेटासेट के निर्माण पर निर्भर करता है। मेरे अनुभव से तंत्रिका नेटवर्क सरलतम स्पष्टीकरण के लिए जाते हैं। और संगठन से आयु का उल्लेख करना वास्तव में सिर से शरीर के अनुपात का उपयोग करने की तुलना में सरल है। यदि आप अपने डेटासेट का विस्तार कर सकते हैं, तो आपके सीएनएन को उम्मीद के मुताबिक काम करना चाहिए।

— Lugi
स्रोत