इस पोस्ट को बहुत अपडेट किया गया है। शीर्ष पर, आप लिंक अपडेट देख सकते हैं। नीचे, प्रारंभिक उत्तर पर विविधताएं। लघु संस्करण के लिए: दृढ़ तंत्रिका नेटवर्क की सफलता और गहरी सीख गैलिलियन क्रांति की तरह दिखती है। व्यावहारिक दृष्टिकोण के लिए, शास्त्रीय सिग्नल प्रोसेसिंग या कंप्यूटर विज़न मृत हैं ... बशर्ते कि आपके पास पर्याप्त लेबल डेटा हो, स्पष्ट वर्गीकरण विफलताओं ( गहरी खामियां ) के बारे में बहुत कम ध्यान रखें, कार्बन पदचिह्न के बारे में सोचे बिना परीक्षण चलाने की अनंत ऊर्जा है , और तर्कसंगत स्पष्टीकरण को परेशान न करें। दूसरों के लिए, इसने हमें उन सभी के बारे में पुनर्विचार किया, जो हमने पहले किए थे: सुविधा निष्कर्षण, अनुकूलन (cf. मेरे सहयोगी जे। सी।) दीप तंत्रिका संबंधी नेटवर्क संरचनाओं पर विविधतापूर्ण असमानताओं को हल करना), आक्रमण, मात्रा का ठहराव, आदि और वास्तव में दिलचस्प शोध से उभर रहा है, उम्मीद है कि दृढ़ता से आधारभूत सिद्धांतों और इसी तरह के प्रदर्शन के साथ।
अद्यतन लिंक:
हम प्राकृतिक प्रतिकूल उदाहरण पेश करते हैं - वास्तविक दुनिया, अनमॉडिफाइड और स्वाभाविक रूप से होने वाले उदाहरण जो क्लासिफायर सटीकता को काफी कम करने का कारण बनते हैं। हम 7,500 प्राकृतिक प्रतिकूल उदाहरणों को क्यूरेट करते हैं और उन्हें एक इमेजनेट क्लासिफायर टेस्ट सेट में जारी करते हैं जिसे हम इमेजनेट-ए कहते हैं। यह डेटा वर्गीकृत वर्गीकरण मजबूती को मापने के लिए एक नया तरीका है। L_p प्रतिकूल उदाहरणों की तरह, ImageNet-A उदाहरण सफलतापूर्वक अनदेखी या ब्लैक-बॉक्स क्लासिफायर में स्थानांतरित होते हैं। उदाहरण के लिए, ImageNet-A पर DenseNet-121 लगभग 2% सटीकता प्राप्त करता है, लगभग 90% की सटीकता ड्रॉप। इस सटीकता को पुनः प्राप्त करना सरल नहीं है क्योंकि ImageNet-A के उदाहरणों में वर्तमान क्लासिफायर में गहरी खामियों का फायदा उठाया जाता है, जिसमें रंग, बनावट और पृष्ठभूमि के संकेतों पर उनकी अधिक निर्भरता शामिल है। हम मानते हैं कि मजबूती में सुधार के लिए लोकप्रिय प्रशिक्षण तकनीकों का बहुत कम प्रभाव है, लेकिन हम दिखाते हैं कि कुछ वास्तु परिवर्तन प्राकृतिक प्रतिकूल उदाहरणों में मजबूती ला सकते हैं। इस कठिन इमेजनेट परीक्षण सेट को मजबूत सामान्यीकरण सक्षम करने के लिए भविष्य के शोध की आवश्यकता है।
- 2019/05/03: डीप लर्निंग: सिग्नल प्रोसेसिंग और टाइम सीरीज़ विश्लेषण के लिए अंतिम सीमा? "इस लेख में, मैं कई क्षेत्रों को दिखाना चाहता हूँ जहाँ संकेत या समय श्रृंखला महत्वपूर्ण हैं"
- 2018/04/23: मैं अभी एकेडमिक, भाषण और सिग्नल प्रोसेसिंग, ICASSP 2018 पर वार्षिक अंतर्राष्ट्रीय सम्मेलन से वापस आता हूं । मैं कुछ हद तक गहन शिक्षा, गहन नेटवर्क, आदि पर भरोसा करते हुए कागजात की मात्रा से चकित था। चार में से दो प्लीनर (एलेक्स एकेरो और यान लेकन द्वारा) इस तरह के विषय के लिए समर्पित थे। उसी समय, जिन शोधकर्ताओं से मैं मिला हूं, उनमें से अधिकांश इस बारे में मजाक कर रहे थे ("क्षमा करें, मेरा पोस्टर फ़िल्टर बैंकों पर है, डीप लर्निंग पर नहीं", "मैं इसमें नहीं हूं, मेरे पास छोटे डेटासेट हैं"), या भव्य चुनौतियों पर 0.5% हासिल करने के बारे में सोच रहे थे, और भौतिकी या सांख्यिकीय पुजारियों के मॉडलिंग में रुचि खो रहे थे।
- 2018/01/14: क्या एक डीप नेट एक बिल्ली देख सकता है? "एब्सट्रैक्ट कैट" से, "बेस्ट कैट" को उल्टा, खींचा गया, आदि और किसी तरह स्केच पर सर्प्राइज़िंग परिणाम
- 2017/11/02: प्रकीर्णन परिवर्तनों / नेटवर्क के संदर्भ जोड़े गए
- 2017/10/21: इमेजिंग समस्याओं में उलटा समस्याओं के लिए संवादात्मक तंत्रिका नेटवर्क की समीक्षा
- डीप लर्निंग एंड इट्स एप्लीकेशन टू सिग्नल एंड इंफॉर्मेशन प्रोसेसिंग , आईईईई सिग्नल प्रोसेसिंग मैगज़ीन, जनवरी 2011
डीप लर्निंग संदर्भ मानक सिग्नल / इमेज प्रोसेसिंग पर "स्टेपिंग" नीचे पाया जा सकता है। माइकल एलाड ने सिर्फ डीप, डीप ट्रबल: डीप लर्निंग इम्पैक्ट ऑन इमेज प्रोसेसिंग, गणित और मानवता (SIAM न्यूज़, 2017/05) लिखा, अंश:
फिर तंत्रिका नेटवर्क अचानक वापस आ गया, और प्रतिशोध के साथ।
यह ट्रिब्यून रुचि का है, क्योंकि यह पारंपरिक "इमेज प्रोसेसिंग" से एक बदलाव को दर्शाता है, डेटा को मॉडल करने / समझने की कोशिश करता है, ताकि बहुत अधिक अंतर्दृष्टि के बिना, शुद्धता के दायरे में।
यह डोमेन काफी तेजी से विकसित हो रहा है। इसका मतलब यह नहीं है कि यह कुछ जानबूझकर या निरंतर दिशा में विकसित होता है। न सही, न गलत। लेकिन आज सुबह, मैंने निम्नलिखित कहावत सुनी (या यह एक मजाक है?):
डेटा के एक विशाल सेट के साथ एक बुरा एल्गोरिथ्म प्यूस डेटा के साथ एक स्मार्ट एल्गोरिथ्म से बेहतर कर सकता है ।
यहाँ मेरी बहुत छोटी कोशिश थी: गहरी सीख अत्याधुनिक परिणाम प्रदान कर सकती है, लेकिन एक व्यक्ति हमेशा यह नहीं समझ पाता है कि , और हमारी वैज्ञानिक नौकरी का एक हिस्सा यह समझाने पर रहता है कि चीजें क्यों काम करती हैं, डेटा का एक टुकड़ा क्या है , आदि।
डीप लर्निंग के लिए (विशाल) अच्छी तरह से टैग किए गए डेटाबेस की आवश्यकता होती है। किसी भी समय आप एकल या एकवचन छवियों (अर्थात पीछे एक विशाल डेटाबेस के बिना) पर शिल्पकार्य करते हैं, विशेष रूप से "मुक्त उपयोगकर्ता-आधारित टैग की गई छवियों" के उत्पादन की संभावना नहीं है (सेट " खेल और चेहरे खेलने वाले अजीब बिल्लियों " के पूरक सेट में ) , आप थोड़ी देर के लिए और लाभ के लिए पारंपरिक छवि प्रसंस्करण से चिपके रह सकते हैं। हाल के एक ट्वीट में सारांश दिया गया है कि:
(बहुत सारे) लेबल किए गए डेटा (बिना गुम हुए vars) की आवश्यकता के लिए कई डोमेन के लिए एक सौदा ब्रेकर (और अनावश्यक) है
यदि वे मारे जा रहे हैं (जो मुझे अल्पकालिक नोटिस पर संदेह है), तो वे अभी तक मरे नहीं हैं। तो सिग्नल प्रोसेसिंग, छवि विश्लेषण, कंप्यूटर विज़न में आपके द्वारा प्राप्त किसी भी कौशल से आपको भविष्य में मदद मिलेगी। यह उदाहरण ब्लॉग पोस्ट में चर्चा के लिए है: क्या हम कंप्यूटर विजन में ज्यामिति के बारे में भूल गए हैं? एलेक्स केंडल द्वारा:
डीप लर्निंग ने कंप्यूटर विजन में क्रांति ला दी है। आज, कई समस्याएं नहीं हैं जहां सबसे अच्छा प्रदर्शन करने वाला समाधान एंड-टू-एंड डीप लर्निंग मॉडल पर आधारित नहीं है। विशेष रूप से, दृढ़ तंत्रिका नेटवर्क लोकप्रिय हैं क्योंकि वे बॉक्स से काफी अच्छी तरह से काम करते हैं। हालांकि, ये मॉडल बड़े पैमाने पर बड़े ब्लैक-बॉक्स हैं। बहुत सी चीजें हैं जो हम उनके बारे में नहीं समझते हैं।
एक ठोस उदाहरण निम्नलिखित हो सकता है: एक ही स्थान से बहुत गहरे (जैसे निगरानी) छवियों के एक जोड़े, मूल्यांकन करने की आवश्यकता है अगर उनमें से एक में एक विशिष्ट परिवर्तन होता है जिसे पता लगाया जाना चाहिए, संभवतः पारंपरिक छवि प्रसंस्करण का मामला है, इससे अधिक डीप लर्निंग (आज तक)।
दूसरी तरफ, डीप लर्निंग जितना सफल होता है, बड़े पैमाने पर होता है, इससे डेटा के एक छोटे समूह का गर्भपात हो सकता है, जो कुछ अनुप्रयोगों के लिए "औसत" हानिरहित हो सकता है। दो छवियां जो मानव आंख से थोड़ी भिन्न होती हैं, उन्हें डीएल के माध्यम से अलग-अलग वर्गीकृत किया जा सकता है। या यादृच्छिक छवियों को एक विशिष्ट वर्ग में सेट किया जा सकता है। उदाहरण के लिए देखें डीप न्यूरल नेटवर्क को आसानी से बेवकूफ बनाया जाता है: गैर-मान्यता प्राप्त चित्रों के लिए उच्च आत्मविश्वास की भविष्यवाणी (न्गुयेन ए, योसिंस्की जे, क्लून जे। प्रो। कंप्यूटर विजन एंड पैटर्न रिकॉग्निशन 2015), या डीप लर्निंग डीप फ्लॉज है? , प्रतिकूल नकारात्मक पर:
शोधकर्ताओं द्वारा एक निश्चित अगोचर गड़बड़ी लागू करने के बाद नेटवर्क एक छवि को गलत तरीके से बदल सकता है। भविष्यवाणी त्रुटियों को अधिकतम करने के लिए पिक्सेल मानों को समायोजित करके गड़बड़ी पाई जाती है।
"डीप लर्निंग" के सभी सम्मान के साथ, "बड़े पैमाने पर उत्पादन के लिए पंजीकृत, ज्ञात, जन-मान्य या अपेक्षित व्यवहार" बनाम "शिल्प के विलक्षण टुकड़े" का जवाब दें। सिंगल इंडेक्स स्केल में कोई भी बेहतर (अभी तक) नहीं है। दोनों को कुछ समय के लिए साथ रहना पड़ सकता है।
हालाँकि, गहन शिक्षण कई उपन्यास क्षेत्रों में व्याप्त है, जैसा कि नीचे संदर्भ में वर्णित है।
सौभाग्य से, कुछ लोग गहरी शिक्षा के पीछे गणितीय तर्क खोजने की कोशिश कर रहे हैं, जिसका एक उदाहरण बिखरे हुए नेटवर्क हैं या स्टीफन मल्लात और सह-लेखकों द्वारा प्रस्तावित रूपांतरण हैं, बिखरने के लिए ईएनएस साइट देखें । हार्मोनिक विश्लेषण और गैर-रेखीय ऑपरेटर, लिप्सचित्ज़ फ़ंक्शंस, अनुवाद / रोटेशन इनवेरियन, औसत सिग्नल प्रोसेसिंग व्यक्ति के लिए बेहतर है। उदाहरण के लिए देखें डीप कन्वीन्यूशनल नेटवर्क को समझना ।