हाल के वर्षों में, कंप्यूटर दृष्टि में वस्तु मान्यता के लिए संवादी तंत्रिका नेटवर्क (CNNs) अत्याधुनिक हो गए हैं। आमतौर पर, एक सीएनएन में कई दृढ़ परतें होती हैं, इसके बाद दो पूरी तरह से जुड़ी हुई परतें होती हैं। इसके पीछे एक अंतर्ज्ञान यह है कि दृढ़ परतें इनपुट डेटा का बेहतर प्रतिनिधित्व सीखती हैं, और पूरी तरह से जुड़ी हुई परतें तब लेबल के एक सेट के आधार पर इस प्रतिनिधित्व को वर्गीकृत करना सीखती हैं।
हालाँकि, इससे पहले कि CNN हावी होने लगे, सपोर्ट वेक्टर मशीनें (SVM) अत्याधुनिक थीं। इसलिए यह कहना समझदारी है कि एक एसवीएम अभी भी दो-परत पूरी तरह से जुड़े तंत्रिका नेटवर्क की तुलना में एक मजबूत क्लासिफायरियर है। इसलिए, मैं सोच रहा हूं कि अत्याधुनिक CNNs, SVM के बजाय वर्गीकरण के लिए पूरी तरह से जुड़ी परतों का उपयोग क्यों करते हैं? इस तरह, आपके पास दोनों दुनियाओं में सबसे अच्छा होगा: एक मजबूत फीचर प्रतिनिधित्व, और एक मजबूत क्लासिफायरियर, बल्कि एक मजबूत फीचर प्रतिनिधित्व लेकिन केवल एक कमजोर क्लासिफायरियर ...
कोई विचार?