छवियों की विशेषताएं जो उन्हें एक गहरे तंत्रिका नेटवर्क के साथ वर्गीकरण के लिए उत्तरदायी बनाती हैं, वहाँ एक टन की विशेषताएं हैं (संभवतः लाखों अगर आरजीबी, तीव्रता, आदि के साथ अरबों पिक्सेल नहीं हैं) और यदि आपके पास सटीक लेबल हैं, तो यह शोर डेटा नहीं है। इन दिनों कैमरे बहुत अच्छे हैं और वे कुछ भी गलत नहीं माप रहे हैं। इंटरनेट के लिए धन्यवाद, अब हमारे पास बहुत सटीक लेबल वाली छवियां हैं। एक गहरा नेटवर्क मनमाने ढंग से जटिल कार्यों को व्यक्त कर सकता है, जो शोर डेटा के साथ एक समस्या है क्योंकि आप बहुत आसानी से शोर को रोक सकते हैं, इसलिए कई सीखने के तरीके जटिल मॉडल को दंडित करने के लिए करते हैं। छवि मान्यता के मामले में, हालांकि, वास्तविक कार्य वास्तव में बहुत जटिल लगता है, हमें पता नहीं है कि कार्यात्मक रूप कैसा दिखता है, और हम यह भी नहीं जानते कि कई मामलों में प्रासंगिक विशेषताएं क्या हैं।
इसका मतलब यह नहीं है कि आप छवियों के साथ कुछ भी नहीं होने वाले कार्यों को सीखने के लिए गहरे नेटवर्क का उपयोग नहीं कर सकते हैं। आपको बस डाउनसाइड्स के बारे में बहुत सावधान रहने की जरूरत है, ज्यादातर यह कि यह बहुत अधिक होने का खतरा है, लेकिन यह भी कि यह कम्प्यूटेशनल रूप से महंगा है और प्रशिक्षित करने के लिए एक लंबा समय लग सकता है (इन दिनों समानांतर और GPU के साथ एक समस्या नहीं है)। अन्य नकारात्मक पक्ष यह है कि आपके पास कोई मॉडल व्याख्या करने के लिए बहुत कम है, जो छवि वर्गीकरण के लिए वास्तव में मायने नहीं रखता है। हम सिर्फ एक चिंपांजी और एक ऑरंगुटान के बीच अंतर को पहचानने के लिए कंप्यूटर प्राप्त करने की कोशिश कर रहे हैं। सूत्र की मानवीय समझ मायने नहीं रखती है। अन्य डोमेन, विशेष रूप से चिकित्सा निदान, नीति अनुसंधान, आदि के लिए, आप चाहते हैं या मानव समझ की आवश्यकता हो सकती है।