Vapnik-Chervonenkis (वीसी) -dimension तंत्रिका नेटवर्क के लिए सूत्र से लेकर के , के साथ सबसे खराब स्थिति है, जहां में किनारों और की संख्या है नोड्स की संख्या है। सामान्यीकरण की मजबूत गारंटी के लिए आवश्यक प्रशिक्षण नमूनों की संख्या कुलपति-आयाम के साथ रैखिक है।
इसका मतलब यह है कि अरबों किनारों वाले नेटवर्क के लिए, जैसे कि सफल गहन शिक्षण मॉडल के मामले में, प्रशिक्षण डेटासेट को सबसे अच्छे मामले में, सबसे खराब स्थिति में क्वाड्रिलियन को अरबों प्रशिक्षण नमूने की आवश्यकता होती है। वर्तमान में सबसे बड़े प्रशिक्षण सेट में लगभग सौ बिलियन नमूने हैं। चूंकि पर्याप्त प्रशिक्षण डेटा नहीं है, यह संभावना नहीं है कि गहन शिक्षण मॉडल सामान्यीकरण कर रहे हैं। इसके बजाय, वे प्रशिक्षण डेटा से आगे निकल रहे हैं। इसका मतलब यह है कि मॉडल डेटा पर अच्छा प्रदर्शन नहीं करेंगे जो प्रशिक्षण डेटा से भिन्न है, जो मशीन सीखने के लिए एक अवांछनीय संपत्ति है।
वीसी आयामी विश्लेषण के अनुसार, सामान्य सीखने के लिए गहन सीखने की अक्षमता को देखते हुए, गहन सीखने के परिणाम इतने सम्मोहित क्यों हैं? कुछ डेटासेट पर उच्च सटीकता होने का मतलब अपने आप में बहुत ज्यादा नहीं है। क्या डीप लर्निंग आर्किटेक्चर के बारे में कुछ खास है जो कुलपति-आयाम को काफी कम करता है?
यदि आपको नहीं लगता कि वीसी-आयाम विश्लेषण प्रासंगिक है, तो कृपया सबूत / स्पष्टीकरण प्रदान करें कि गहन शिक्षा सामान्यीकरण कर रही है और अतिव्यापी नहीं है। यानी इसके पास अच्छी रिकॉल और परिशुद्धता है, या सिर्फ अच्छा रिकॉल है? 100% को प्राप्त करने के लिए तुच्छ याद है, जैसा कि 100% सटीक है। दोनों को 100% के करीब लाना बहुत मुश्किल है।
एक विपरीत उदाहरण के रूप में, यहाँ इस बात का प्रमाण है कि गहरी शिक्षा अधिभूत है। एक ओवरफिट मॉडल को मूर्ख बनाना आसान है क्योंकि इसमें नियतात्मक / स्टोचस्टिक शोर शामिल है। ओवरफिटिंग के उदाहरण के लिए निम्न छवि देखें।
इसके अलावा, परीक्षण डेटा पर अच्छी सटीकता के बावजूद एक ओवरफिट मॉडल के साथ समस्याओं को समझने के लिए इस प्रश्न के कम रैंक वाले उत्तर देखें ।
कुछ ने जवाब दिया है कि नियमितीकरण एक बड़े कुलपति आयाम की समस्या को हल करता है । आगे की चर्चा के लिए यह प्रश्न देखें ।