मुख्य कथित लाभ:
(1) गैर-रेखीय सीखने की समस्याओं के लिए इंजीनियर सुविधाओं को हाथ लगाने की जरूरत नहीं है (समय की बचत और भविष्य के लिए स्केलेबल, क्योंकि हाथ इंजीनियरिंग को एक अल्पकालिक बैंड-सहायता के रूप में देखा जाता है)
(2) सीखी गई विशेषताएँ कभी-कभी सर्वश्रेष्ठ हाथ से संचालित होने वाली सुविधाओं से बेहतर होती हैं, और यह इतनी जटिल (कंप्यूटर दृष्टि - जैसे चेहरे जैसी विशेषताएं) हो सकती हैं कि इससे इंजीनियर को बहुत अधिक मानवीय समय लगेगा।
(3) नेटवर्क को प्री-ट्रेन करने के लिए अनलिस्टेड डेटा का उपयोग कर सकते हैं। मान लें कि हमारे पास 1000000 गैर-लेबल छवियां और 1000 लेबल की गई छवियां हैं। अब हम गहराई से सीखने के साथ 1000000 गैर-सूचीबद्ध छवियों पर पूर्व-प्रशिक्षण द्वारा एक पर्यवेक्षित शिक्षण एल्गोरिथ्म में काफी सुधार कर सकते हैं। इसके अलावा, कुछ डोमेन में हमारे पास बहुत सारे गैर-सूचीबद्ध डेटा हैं, लेकिन लेबल किए गए डेटा को ढूंढना मुश्किल है। एक एल्गोरिथ्म जो वर्गीकरण को बेहतर बनाने के लिए इस गैर-सूचीबद्ध डेटा का उपयोग कर सकता है, मूल्यवान है।
(4) स्पष्ट रूप से, कई बेंचमार्क को तोड़ दिया जो केवल गहरी सीखने के तरीकों की शुरूआत तक वृद्धिशील सुधार देख रहे थे।
(5) एक ही एल्गोरिदम कच्चे (शायद मामूली पूर्व प्रसंस्करण के साथ) इनपुट के साथ कई क्षेत्रों में काम करता है।
(६) अधिक डेटा के रूप में नेटवर्क को खिलाया जाता है (स्थिर वितरण आदि मानकर ) सुधार होता रहता है।