सबसे पहले, एक बहुत ही दिलचस्प सवाल पोस्ट करने के लिए धन्यवाद।
शीघ्र ही इसका उत्तर देने के लिए, एक वेनिला कंफेट ने एक तस्वीर से उम्र की भविष्यवाणी करने के लिए अंत-2-प्रशिक्षित प्रशिक्षित किया , जो आमतौर पर आपके द्वारा पोस्ट की गई छवियों जैसे गलत-वर्गीकृत करने के लिए प्रवण होगा । दूसरी बात, ध्यान दें कि सही रूप में एक व्यक्ति की आयु का आकलन एक लगभग असंभव काम है 1 ।
कुछ ऑब्जेक्ट डिटेक्टरों का उपयोग करके आपके प्रस्तावित दृष्टिकोण से मुख्य अंतर (जैसा कि यह RCNN, तेज़ RCNN, YOLO या SSD है) यह है कि आप मॉडल को प्रशिक्षित करने के लिए विभिन्न जानकारी का उपयोग कर रहे हैं। सीएनएन को केवल छवियों पर प्रशिक्षित किया जाता है और सभी आवश्यक सुविधाओं का पता लगाने की आवश्यकता होती है। यह विभिन्न चेहरे की विशेषताओं को खोजने की सबसे अधिक संभावना है, लेकिन यह कपड़ों पर भी निर्भर करेगा और शायद दृश्य सुविधाओं (बच्चों को अक्सर कुछ खिलौनों के साथ तस्वीर में हो सकता है, वयस्कों को कार्यालय के वातावरण आदि में अधिक संभावना होगी)। ये सुविधाएँ आपके प्रतिरूप से अधिक मजबूत नहीं होंगी।
दूसरी ओर, यदि आप नेटवर्क को "धड़" और "हेड" के रूप में वस्तुओं का स्पष्ट रूप से पता लगाने के लिए प्रशिक्षित करते हैं, तो आप अतिरिक्त जानकारी प्रदान कर रहे हैं कि ये ऑब्जेक्ट कार्य के लिए महत्वपूर्ण हैं, और इस तरह समस्या 2 को सरल बनाते हैं ।
हालांकि सिर और धड़ का पता लगाने और फिर बाउंडिंग बॉक्स के आकार के अनुपात का मूल्यांकन दिलचस्प लगता है, मैं कई बाधाओं को देख सकता हूं:
- डेटा प्राप्त करना: मुझे बड़े डेटासेट की उपलब्धता के बारे में पता नहीं है, जहाँ उम्र और बाउंडिंग बॉक्स मौजूद होंगे।
- अपूर्ण FOV: अधिकांश छवियों में (उदाहरण के लिए आपके दोनों उदाहरण), लोगों को संपूर्ण प्रदर्शित नहीं किया जाता है। आपको इस तथ्य से निपटना होगा कि धड़ बाउंडिंग बॉक्स हमेशा केवल सही नहीं होंगे क्योंकि व्यक्ति का हिस्सा छवि में नहीं है और नेट को यह अनुमान लगाना होगा कि कितना बड़ा हिस्सा गायब है (और जमीनी सच्चाई बाउंडिंग बॉक्स सबसे अधिक है। संभावना है कि इस जानकारी पर कब्जा नहीं)। इसके अलावा, उपरोक्त ऑब्जेक्ट डिटेक्टर हमेशा आंशिक वस्तुओं की भविष्यवाणियों को ठीक से संभाल नहीं पाते हैं। यह मॉडल में बहुत अधिक शोर का परिचय दे सकता है।
- विभिन्न पोज़: धड़-से-सिर का अनुपात, सामने और बगल के लोगों के लिए बहुत अलग होगा।
- वयस्क: ऐसा लगता है कि अनुपात 0-21 के बीच की उम्र का अनुमान लगाने के लिए अच्छी तरह से काम करता है, लेकिन मैं यह नहीं देखता कि यह वयस्कों की उम्र की भविष्यवाणी करने में कैसे मदद करेगा (मुझे लगता है कि अनुपात अधिक उम्र में नहीं बदलता है)।
इन सभी समस्याओं से पता चलता है कि सिर से धड़ अनुपात भी पूरी तरह से काम नहीं कर रहा है, हालांकि यह आपके विशेष प्रतिसाद के लिए अधिक मजबूत हो सकता है।
मुझे लगता है कि इस कार्य को करने का सबसे अच्छा तरीका 1 होगा) चेहरे का पता लगाना, 2) चेहरे की फसल से ही उम्र का अनुमान लगाना (संभावित भ्रामक जानकारी को हटाता है)। ध्यान दें कि आरओआई-पूलिंग का उपयोग करते हुए कुछ आर-सीएनएन जैसे आर्किटेक्चर को यह एंड-टू-एंड करने के लिए प्रशिक्षित किया जा सकता है।
1 यहां तक कि बहुत परिष्कृत चिकित्सा विधियों (जो व्यक्ति की तस्वीर की तुलना में बहुत अधिक जानकारीपूर्ण हैं) का उपयोग करते हुए भी यह सटीक रूप से करना संभव नहीं है। देखें और अधिक जानकारी के लिए इस Quora धागा ।
2 लेख की जाँच करें नॉलेज मैटर्स: एक उदाहरण के लिए ऑप्टिमाइज़ेशन के लिए पूर्व सूचना का महत्व कैसे कार्य के बारे में कुछ मध्यवर्ती ज्ञान प्रदान करने से शिक्षण को सरल बनाया जा सकता है।