क्या गहरी सीखने की छवि प्रसंस्करण / कंप्यूटर दृष्टि की हत्या है?


52

मैं सिग्नल और इमेज प्रोसेसिंग या शायद कंप्यूटर विजन (मैंने अभी तक तय नहीं किया है) में एमएससी में दाखिला लेना चाह रहा हूं, और यह सवाल सामने आया।

मेरी चिंता यह है कि चूंकि गहरी सीखने के लिए फीचर निष्कर्षण और लगभग कोई इनपुट प्री-प्रोसेसिंग की जरूरत नहीं है, क्या यह इमेज प्रोसेसिंग (या सामान्य रूप से सिग्नल प्रोसेसिंग) को मार रहा है?

मैं गहरी सीखने में विशेषज्ञ नहीं हूं, लेकिन यह अन्य तकनीकों की तरह एक फीचर वेक्टर के बजाय सीधे छवियों को पहचानने और वर्गीकरण कार्यों में बहुत अच्छा काम करता है।

क्या कोई ऐसा मामला है जिसमें एक पारंपरिक सुविधा निष्कर्षण + वर्गीकरण दृष्टिकोण बेहतर होगा, जिससे छवि प्रसंस्करण तकनीक का उपयोग किया जा सकता है, या गहरी शिक्षा के कारण यह मर रहा है?


3
इसे फिर से खोलना क्योंकि इसमें बहुत अधिक संख्या में अपवोट हैं और शीर्ष-मतदान के उत्तर में बहुत अधिक संख्या है।
पीटर के.एच.

1
@LaurentDuval मुझे लगता है कि हर उत्तर सहायक और बहुत ही रोचक था, लेकिन मुख्य रूप से आपका और गणितज्ञों (साथ ही जो चर्चा सामने आई) ने वास्तव में विषय को स्पष्ट किया।
टोनी

2
मैं चल रही चर्चा में एक चौराहा बनाना चाहूंगा। किसने कहा कि गहरी सीखने के लिए सुविधा निष्कर्षण की आवश्यकता नहीं है? अपने स्वयं के व्यावहारिक अनुभव में, हमें कच्चे डेटा के लिए DNN को प्रशिक्षित नहीं करना चाहिए। हमें कुछ सुविधा निष्कर्षण करना होगा और छवि की कुछ बुनियादी समझ भी होनी चाहिए। गहरी शिक्षा का उपयोग देखभाल के साथ किया जाना चाहिए, लेकिन यह भी एक अच्छा विचार है।
अरुण

जवाबों:


45

इस पोस्ट को बहुत अपडेट किया गया है। शीर्ष पर, आप लिंक अपडेट देख सकते हैं। नीचे, प्रारंभिक उत्तर पर विविधताएं। लघु संस्करण के लिए: दृढ़ तंत्रिका नेटवर्क की सफलता और गहरी सीख गैलिलियन क्रांति की तरह दिखती है। व्यावहारिक दृष्टिकोण के लिए, शास्त्रीय सिग्नल प्रोसेसिंग या कंप्यूटर विज़न मृत हैं ... बशर्ते कि आपके पास पर्याप्त लेबल डेटा हो, स्पष्ट वर्गीकरण विफलताओं ( गहरी खामियां ) के बारे में बहुत कम ध्यान रखें, कार्बन पदचिह्न के बारे में सोचे बिना परीक्षण चलाने की अनंत ऊर्जा है , और तर्कसंगत स्पष्टीकरण को परेशान न करें। दूसरों के लिए, इसने हमें उन सभी के बारे में पुनर्विचार किया, जो हमने पहले किए थे: सुविधा निष्कर्षण, अनुकूलन (cf. मेरे सहयोगी जे। सी।) दीप तंत्रिका संबंधी नेटवर्क संरचनाओं पर विविधतापूर्ण असमानताओं को हल करना), आक्रमण, मात्रा का ठहराव, आदि और वास्तव में दिलचस्प शोध से उभर रहा है, उम्मीद है कि दृढ़ता से आधारभूत सिद्धांतों और इसी तरह के प्रदर्शन के साथ।

अद्यतन लिंक:

हम प्राकृतिक प्रतिकूल उदाहरण पेश करते हैं - वास्तविक दुनिया, अनमॉडिफाइड और स्वाभाविक रूप से होने वाले उदाहरण जो क्लासिफायर सटीकता को काफी कम करने का कारण बनते हैं। हम 7,500 प्राकृतिक प्रतिकूल उदाहरणों को क्यूरेट करते हैं और उन्हें एक इमेजनेट क्लासिफायर टेस्ट सेट में जारी करते हैं जिसे हम इमेजनेट-ए कहते हैं। यह डेटा वर्गीकृत वर्गीकरण मजबूती को मापने के लिए एक नया तरीका है। L_p प्रतिकूल उदाहरणों की तरह, ImageNet-A उदाहरण सफलतापूर्वक अनदेखी या ब्लैक-बॉक्स क्लासिफायर में स्थानांतरित होते हैं। उदाहरण के लिए, ImageNet-A पर DenseNet-121 लगभग 2% सटीकता प्राप्त करता है, लगभग 90% की सटीकता ड्रॉप। इस सटीकता को पुनः प्राप्त करना सरल नहीं है क्योंकि ImageNet-A के उदाहरणों में वर्तमान क्लासिफायर में गहरी खामियों का फायदा उठाया जाता है, जिसमें रंग, बनावट और पृष्ठभूमि के संकेतों पर उनकी अधिक निर्भरता शामिल है। हम मानते हैं कि मजबूती में सुधार के लिए लोकप्रिय प्रशिक्षण तकनीकों का बहुत कम प्रभाव है, लेकिन हम दिखाते हैं कि कुछ वास्तु परिवर्तन प्राकृतिक प्रतिकूल उदाहरणों में मजबूती ला सकते हैं। इस कठिन इमेजनेट परीक्षण सेट को मजबूत सामान्यीकरण सक्षम करने के लिए भविष्य के शोध की आवश्यकता है।

डीप लर्निंग संदर्भ मानक सिग्नल / इमेज प्रोसेसिंग पर "स्टेपिंग" नीचे पाया जा सकता है। माइकल एलाड ने सिर्फ डीप, डीप ट्रबल: डीप लर्निंग इम्पैक्ट ऑन इमेज प्रोसेसिंग, गणित और मानवता (SIAM न्यूज़, 2017/05) लिखा, अंश:

फिर तंत्रिका नेटवर्क अचानक वापस आ गया, और प्रतिशोध के साथ।

यह ट्रिब्यून रुचि का है, क्योंकि यह पारंपरिक "इमेज प्रोसेसिंग" से एक बदलाव को दर्शाता है, डेटा को मॉडल करने / समझने की कोशिश करता है, ताकि बहुत अधिक अंतर्दृष्टि के बिना, शुद्धता के दायरे में।

यह डोमेन काफी तेजी से विकसित हो रहा है। इसका मतलब यह नहीं है कि यह कुछ जानबूझकर या निरंतर दिशा में विकसित होता है। न सही, न गलत। लेकिन आज सुबह, मैंने निम्नलिखित कहावत सुनी (या यह एक मजाक है?):

डेटा के एक विशाल सेट के साथ एक बुरा एल्गोरिथ्म प्यूस डेटा के साथ एक स्मार्ट एल्गोरिथ्म से बेहतर कर सकता है ।

यहाँ मेरी बहुत छोटी कोशिश थी: गहरी सीख अत्याधुनिक परिणाम प्रदान कर सकती है, लेकिन एक व्यक्ति हमेशा यह नहीं समझ पाता है कि , और हमारी वैज्ञानिक नौकरी का एक हिस्सा यह समझाने पर रहता है कि चीजें क्यों काम करती हैं, डेटा का एक टुकड़ा क्या है , आदि।

डीप लर्निंग के लिए (विशाल) अच्छी तरह से टैग किए गए डेटाबेस की आवश्यकता होती है। किसी भी समय आप एकल या एकवचन छवियों (अर्थात पीछे एक विशाल डेटाबेस के बिना) पर शिल्पकार्य करते हैं, विशेष रूप से "मुक्त उपयोगकर्ता-आधारित टैग की गई छवियों" के उत्पादन की संभावना नहीं है (सेट " खेल और चेहरे खेलने वाले अजीब बिल्लियों " के पूरक सेट में ) , आप थोड़ी देर के लिए और लाभ के लिए पारंपरिक छवि प्रसंस्करण से चिपके रह सकते हैं। हाल के एक ट्वीट में सारांश दिया गया है कि:

(बहुत सारे) लेबल किए गए डेटा (बिना गुम हुए vars) की आवश्यकता के लिए कई डोमेन के लिए एक सौदा ब्रेकर (और अनावश्यक) है

यदि वे मारे जा रहे हैं (जो मुझे अल्पकालिक नोटिस पर संदेह है), तो वे अभी तक मरे नहीं हैं। तो सिग्नल प्रोसेसिंग, छवि विश्लेषण, कंप्यूटर विज़न में आपके द्वारा प्राप्त किसी भी कौशल से आपको भविष्य में मदद मिलेगी। यह उदाहरण ब्लॉग पोस्ट में चर्चा के लिए है: क्या हम कंप्यूटर विजन में ज्यामिति के बारे में भूल गए हैं? एलेक्स केंडल द्वारा:

डीप लर्निंग ने कंप्यूटर विजन में क्रांति ला दी है। आज, कई समस्याएं नहीं हैं जहां सबसे अच्छा प्रदर्शन करने वाला समाधान एंड-टू-एंड डीप लर्निंग मॉडल पर आधारित नहीं है। विशेष रूप से, दृढ़ तंत्रिका नेटवर्क लोकप्रिय हैं क्योंकि वे बॉक्स से काफी अच्छी तरह से काम करते हैं। हालांकि, ये मॉडल बड़े पैमाने पर बड़े ब्लैक-बॉक्स हैं। बहुत सी चीजें हैं जो हम उनके बारे में नहीं समझते हैं।

एक ठोस उदाहरण निम्नलिखित हो सकता है: एक ही स्थान से बहुत गहरे (जैसे निगरानी) छवियों के एक जोड़े, मूल्यांकन करने की आवश्यकता है अगर उनमें से एक में एक विशिष्ट परिवर्तन होता है जिसे पता लगाया जाना चाहिए, संभवतः पारंपरिक छवि प्रसंस्करण का मामला है, इससे अधिक डीप लर्निंग (आज तक)।

दूसरी तरफ, डीप लर्निंग जितना सफल होता है, बड़े पैमाने पर होता है, इससे डेटा के एक छोटे समूह का गर्भपात हो सकता है, जो कुछ अनुप्रयोगों के लिए "औसत" हानिरहित हो सकता है। दो छवियां जो मानव आंख से थोड़ी भिन्न होती हैं, उन्हें डीएल के माध्यम से अलग-अलग वर्गीकृत किया जा सकता है। या यादृच्छिक छवियों को एक विशिष्ट वर्ग में सेट किया जा सकता है। उदाहरण के लिए देखें डीप न्यूरल नेटवर्क को आसानी से बेवकूफ बनाया जाता है: गैर-मान्यता प्राप्त चित्रों के लिए उच्च आत्मविश्वास की भविष्यवाणी (न्गुयेन ए, योसिंस्की जे, क्लून जे। प्रो। कंप्यूटर विजन एंड पैटर्न रिकॉग्निशन 2015), या डीप लर्निंग डीप फ्लॉज है? , प्रतिकूल नकारात्मक पर:

शोधकर्ताओं द्वारा एक निश्चित अगोचर गड़बड़ी लागू करने के बाद नेटवर्क एक छवि को गलत तरीके से बदल सकता है। भविष्यवाणी त्रुटियों को अधिकतम करने के लिए पिक्सेल मानों को समायोजित करके गड़बड़ी पाई जाती है।

"डीप लर्निंग" के सभी सम्मान के साथ, "बड़े पैमाने पर उत्पादन के लिए पंजीकृत, ज्ञात, जन-मान्य या अपेक्षित व्यवहार" बनाम "शिल्प के विलक्षण टुकड़े" का जवाब दें। सिंगल इंडेक्स स्केल में कोई भी बेहतर (अभी तक) नहीं है। दोनों को कुछ समय के लिए साथ रहना पड़ सकता है।

हालाँकि, गहन शिक्षण कई उपन्यास क्षेत्रों में व्याप्त है, जैसा कि नीचे संदर्भ में वर्णित है।

सौभाग्य से, कुछ लोग गहरी शिक्षा के पीछे गणितीय तर्क खोजने की कोशिश कर रहे हैं, जिसका एक उदाहरण बिखरे हुए नेटवर्क हैं या स्टीफन मल्लात और सह-लेखकों द्वारा प्रस्तावित रूपांतरण हैं, बिखरने के लिए ईएनएस साइट देखें । हार्मोनिक विश्लेषण और गैर-रेखीय ऑपरेटर, लिप्सचित्ज़ फ़ंक्शंस, अनुवाद / रोटेशन इनवेरियन, औसत सिग्नल प्रोसेसिंग व्यक्ति के लिए बेहतर है। उदाहरण के लिए देखें डीप कन्वीन्यूशनल नेटवर्क को समझना


1
उपयुक्त रूप से संशोधित प्रतियों का उपयोग करते हुए अपर्याप्त प्रशिक्षण डेटा को संवर्धित करना सामान्य सीखने में गहरी मदद करता है। हाल ही में, पूर्ण निगरानी किए गए टैगिंग की आवश्यकता के आसपास तरीके पाए गए हैं: अनसुपराइज़्ड डेटा वृद्धि स्वचालित रूप से अर्ध-पर्यवेक्षित शिक्षण में प्रशिक्षण डेटा के अनलॉबले भाग के लिए लेबल उत्पन्न करती है और प्रशिक्षण के लिए उस डेटा का उपयोग करती है। (जवाब में इस या इसी तरह की जानकारी को शामिल करने के लिए स्वतंत्र महसूस करें।)
ओली निमितालो

1
यदि आप जानते हैं कि "लगातार" कैसे बढ़ाना है। शास्त्रीय डेटासेट पर ठीक है, अभी भी वैज्ञानिक डेटा पर मैं (भूविज्ञान, रसायन विज्ञान) पर घूम रहा हूं
लॉरेंट डुवल

@Laurent, आपने जो कहा उसके बारे में: "हमारी वैज्ञानिक नौकरी यह समझाने पर बनी हुई है कि चीजें क्यों काम करती हैं" : डेटा विज्ञान की तरह लगता है कि डीएसपी पर गंभीरता से काम करने पर विचार करते हुए somoeone के लिए एक वैध कैरियर है। क्या विशिष्ट "डीएसपी इंजीनियर" शीर्षक के अलावा कोई अन्य नाम है जिसे आपने सुना है?
JFonseca

21

सबसे पहले, इमेज प्रोसेसिंग या कंप्यूटर विज़न में ग्रेडिंग कार्य करने और गहरी सीखने का उपयोग करने में कुछ भी गलत नहीं है । डीप लर्निंग इमेज प्रोसेसिंग और कंप्यूटर विज़न को नहीं मार रहा है, यह उन क्षेत्रों में वर्तमान हॉट रिसर्च विषय है।

दूसरा, गहरी शिक्षा मुख्य रूप से ऑब्जेक्ट श्रेणी मान्यता में उपयोग की जाती है। लेकिन यह केवल कंप्यूटर दृष्टि के कई क्षेत्रों में से एक है। अन्य क्षेत्र भी हैं, जैसे ऑब्जेक्ट डिटेक्शन, ट्रैकिंग, 3 डी पुनर्निर्माण, आदि, जिनमें से कई अभी भी "हैंड-क्राफ्टेड" सुविधाओं पर निर्भर हैं।


5
सावधान रहें: डीएनएन उन सभी को करने में बहुत अच्छी तरह से सक्षम हैं जिनका आप उल्लेख करते हैं: ऑब्जेक्ट डिटेक्शन, ट्रैकिंग, 3 डी पुनर्निर्माण, आदि ने कहा कि सिग्नल प्रोसेसिंग भौतिक पहलुओं में एक अंतर्दृष्टि है कि सिग्नल कैसे हेरफेर किए जा रहे हैं, और हमें क्यों करना चाहिए उन्हें किसी तरह से हेरफेर करें - और वे (मुझे विश्वास है) यह समझाने के लिए एक वापसी करेंगे कि डीएनएन जैसे अनुकूली एल्गोरिदम काम क्यों करते हैं। लेकिन कोई गलती न करें - डीएनएन इनपुट से आधार परिवर्तन के लिए बहुत अच्छी तरह से सक्षम हैं, और सभी (अलग-अलग) लक्ष्य उद्देश्य के लिए।
तरिन ज़ियाई

11

कोई डीप लर्निंग इमेज प्रोसेसिंग को नहीं मार रहा है। गहन सीखने के लिए आपको विशाल डेटासेट और बहुत सारे कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। बहुत सारे अनुप्रयोग हैं जहाँ कम कम्प्यूटेशनल लोड और छोटे मेमोरी पैरों के निशान के साथ छवि प्रसंस्करण करने में सक्षम होना और विशाल डेटाबेस तक पहुंच के बिना वांछनीय है। कुछ उदाहरण मोबाइल फोन, टैबलेट, मोबाइल कैमरा, ऑटोमोबाइल, क्वाडकोप्टर हैं। डीप लर्निंग अभी बहुत सम्मोहित है क्योंकि वर्गीकरण के लिए कुछ बहुत प्रभावशाली परिणाम मौजूद हैं।

वर्गीकरण कई समस्याओं में से एक समस्या है, जो छवि प्रसंस्करण से संबंधित है, भले ही यह सच हो कि गहरी शिक्षा सभी वर्गीकरण समस्याओं को हल करेगी, बहुत सारे अन्य प्रकार के छवि प्रसंस्करण करने के लिए छोड़ दिया जाएगा। शोर में कमी, छवि पंजीकरण, गति गणना, मॉर्फिंग / ब्लेंडिंग, शार्पनिंग, ऑप्टिकल करेक्शन और ट्रांस्फ़ॉर्मेशन, जियोमेट्रीज़ की गणना, 3D अनुमान, 3 डी + टाइम मोशन मॉडल, स्टीरियो विज़न, डेटा कम्प्रेशन और कोडिंग, सेगमेंटेशन, डिबेंरिंग, मोशन स्टेबिलाइज़ेशन, कंप्यूटर ग्राफिक्स, सभी प्रकार के प्रतिपादन।


डीऑनिसिंग, 3 डी आकलन, आदि, आपके द्वारा उल्लिखित सभी बहुत उपयुक्त वास्तुकला और उचित डेटा के डीएनएन द्वारा अनुमानित और हल किए जा सकते हैं।
तारिणी ज़ियाई

1
हां हां और आप अपनी साप्ताहिक खरीदारी एक जगुआर में कर सकते हैं (लेकिन इसलिए वे निर्मित नहीं हैं)।
गणितज्ञ

1
हे, सच है - लेकिन यह कहने से अलग है कि आप अपने जगुआर का उपयोग करके खरीदारी नहीं कर सकते।
तारिणी ज़ियाई

एक इंजीनियरिंग समस्या पर उपयोगी बाधाओं को लागू करना आसान है जो DNNs को संभालने के लिए भद्दा हैं। उदाहरण के लिए एक बाधा जो प्रयोग की गई विधि इनपुट डेटा के एक निश्चित सेट के प्रति पक्षपाती नहीं होनी चाहिए। फिर डीएनएन निश्चित रूप से डिफ़ॉल्ट रूप से अयोग्य हो जाएंगे क्योंकि उन्हें प्रशिक्षण की आवश्यकता है और इसलिए प्रशिक्षण डेटा का उपयोग करके पक्षपाती किया जाएगा।
मैथडेलर

यह किसी भी इंजीनियरिंग टूल के लिए सही है: लेकिन यह बात नहीं है। मुद्दा यह है कि उन सभी कार्यों को जो आपने ऊपर उल्लेख किया है, वास्तव में बहुत अच्छी तरह से DNN के साथ हल किया जा सकता है । हाँ, कुछ और हाल के घटनाक्रमों कर रहे हैं, लेकिन यह कहना है कि वे गलत अग्रणी है नहीं कर सकते DNNS से हल किया जा! बस इतना ही!
तरिन ज़ियाई

11

आज हमारी एक मित्र के साथ चर्चा हुई। यहां म्यूनिख में बारिश का दिन था, जबकि यूरोप के एक बड़े हिस्से में एक तरह का धूप का माहौल था। लोग सोशल मीडिया में तस्वीरें साझा कर रहे थे, जहां वे गर्मियों की अच्छी पोशाक में थे, जो समुद्र के चारों ओर घूम रहे थे। वह इस स्थिति से नाराज़ थी और मुझसे मुखातिब हुई और पूछा: "क्या आप सोशल मीडिया पर चित्रों को अवरुद्ध करने के लिए एक सॉफ़्टवेयर लिख सकते हैं, जिसमें गर्मियों की ऐसी प्यारी तस्वीरें शामिल हैं, जब मौसम यहाँ खराब है?"। मैंने कहा, क्यों नहीं। आपको बस गर्मियों की छवियों का एक बड़ा सेट, और नकारात्मक उदाहरणों को इकट्ठा करने की ज़रूरत है, इसे एक नेटवर्क के माध्यम से खिलाएं, जो "ब्लॉक" या "नो-ब्लॉक" के स्तर पर द्विआधारी वर्गीकरण करता है। नेटवर्क को ट्रेन और ट्यून करें। बस।

फिर, मैं अपने आप से मुखातिब हुआ: क्या मैं वास्तव में यह जानना चाहता हूं कि यह तय करने के लिए एक सरल एल्गोरिदम कैसे लिखा जाए कि मौसम अच्छा है या नहीं, मशीन को मेरे लिए सोचने की अनुमति दिए बिना? बमुश्किल ... शायद ... जिज्ञासु पाठक के लिए, यहाँ कुछ विशेषताएं हैं जिन्हें आप डिज़ाइन करना चाहते हैं, यदि आप इसके लिए जाने की कोशिश करेंगे:

टू-क्लास वेदर क्लासिफिकेशन, Cewu Lu Class Di Lin, Jiaya Jia, Chi-Keung Tang , CVPR 2014

जाहिर है, मैं आजकल इस सीवीपीआर प्रकाशन के बारे में परवाह नहीं करूंगा और सिर्फ गहराई तक जाऊंगा। इसलिए, जितना मुझे कई परिदृश्यों में अपने मजबूत प्रदर्शन के लिए गहरा सीखना पसंद है, मैं इसे सावधानी से उपयोग भी करता हूं। यहां तक ​​कि अगर यह छवि प्रसंस्करण के बारे में मेरे ज्ञान को नहीं मारता है, तो मुझे उस डोमेन विशेषज्ञता को कम करना पड़ता है जिसकी मुझे आवश्यकता है। बौद्धिक रूप से, यह बहुत सुरुचिपूर्ण नहीं है।

जैसे ही व्यक्ति उसे / खुद को ट्रैक पर रखने का फैसला करता है और दोनों दुनिया से लाभ उठाता है, (वह) वह सुरक्षित पक्ष में होगा।


7

संक्षिप्त उत्तर है, नंबर डीएल एक तस्वीर में एक मग को पहचान सकता है, लेकिन यह वैसे भी सिग्नल प्रोसेसिंग को नहीं मारता है। उस ने कहा, इन परेशान दिनों में आपका सवाल काफी प्रासंगिक है। यहाँ पर स्टीफन मल्लात इत्यादि के विषय पर एक अच्छी पैनल चर्चा है


5

डेटा इंजीनियरिंग का उपयोग अभी भी मशीन लर्निंग में प्रीप्रोसेस करने के लिए किया जाता है और अपने सीखने के समय और उनकी मूल्यांकन दक्षता में सुधार करने के लिए DNNs को खिलाए गए डेटा का चयन करना है। इमेज प्रोसेसिंग (कैमरा सेंसर और RGB / etc। बिटमैप्स जो DNNs को खिलाया जाता है), डेटा इंजीनियरिंग का एक रूप है।


4

सिग्नल प्रोसेसिंग (रेखीय बीजगणित, वेक्टर कैलकुलस, गणितीय सांख्यिकी आदि के साथ) की गहन समझ विशेष रूप से कंप्यूटर दृष्टि में, गहरी शिक्षा के क्षेत्र में गैर-तुच्छ कार्य के लिए अपरिहार्य है।

गहरे सीखने में उच्च प्रभाव वाले कुछ कागजात (अब यह कि ज्यादातर कम लटके हुए फलों को उठाया गया है) सिग्नल प्रोसेसिंग अवधारणाओं की अच्छी समझ पैदा करते हैं।

कुछ प्रेरक अवधारणाएँ:

  • पतला संकल्प : इस ब्लॉगपोस्ट की जाँच करें । पहले समीकरणों में से एक सिग्नल प्रोसेसिंग अवधारणाओं में अच्छी तरह से ग्राउंडेड (हाह) व्यक्ति के लिए ब्रेड-एंड-बटर होगा। यह शास्त्रीय वेवलेट सिग्नल प्रोसेसिंग में पाए जाने वाले एक एल्गोरिदम के साथ निकटता से संबंधित है ।
  • ट्रांसपोज़्ड कन्वेन्शनल लेयर्स / डेकोनव लेयर्स। फिर से, बुनियादी संकेत प्रसंस्करण अवधारणाओं।
  • कंफर्ट फिल्टर की शेपिंग - ऑपरेटर मानदंडों और संकुचन मानचित्रण के अच्छे विचार की आवश्यकता है। यह आमतौर पर या तो सिग्नल थ्योरी या कंट्रोल सिस्टम में एक ग्रेड ईई पाठ्यक्रम में पाया जाता है, या विश्लेषण (वास्तविक या कार्यात्मक) पर गणित पाठ्यक्रमों में।
  • प्रतिकूल उदाहरण : इसकी जांच करने के लिए पहले पत्रों में से एक ( "गुणों की पहचान ..." ) ने इस बात को औपचारिकता के रूप में औपचारिक रूप दिया और विभिन्न परतों के लिप्सीत्ज़ स्थिरांक और एक तंत्रिका नेटवर्क में गैर-रैखिकता के लिए संवेदनशीलता को ऊपरी सीमा तक इस्तेमाल किया। इस तरह के गड़बड़ी। सहमत, विश्लेषण बहुत प्रारंभिक था, लेकिन फिर से मेरा मानना ​​है कि यह इस बात को साबित करता है कि किसी भी चीज में गैर-तुच्छ प्रगति करना, गहरी शिक्षा शामिल है, सिद्धांत की गैर-तुच्छ समझ की आवश्यकता है।

सूची चलती जाती है। इसलिए, भले ही आप कंप्यूटर विज़न में काम करना और अपनी समस्याओं के बारे में गहरी सीख देना चाहते हैं, लेकिन सिग्नल प्रोसेसिंग बैकग्राउंड चीजों को आपके लिए बहुत आसान बना देगा।


1
हाँ। नेटवर्क पर क्या फीड करना है, यह सीखने के लिए नहीं लिए गए किसी भी शॉर्टकट को खराब प्रदर्शन के कठिन तरीके से सीखना होगा।
मैथडेलर

4

मैं वास्तव में ज्यादा इमेज प्रोसेसिंग नहीं करता हूं, लेकिन मैंने एक संगठन (यूएस नेवी) के लिए काम किया, जो सिग्नल क्लासिफिकेशन में फंड करता था और पिछली बार न्यूरल नेट्स एक हॉट टॉपिक था, 80 के दशक के मध्य तक। मुझे अनिवार्य रूप से विपणन सामान की एक बड़ी संख्या के माध्यम से बैठना पड़ा। इन तर्कों के साथ थे:

  • यह आपके मस्तिष्क की तरह तंत्रिका है, और चूंकि यह एक रैखिक क्लासिफायरियर से बेहतर है, इसलिए यह सांख्यिकीय तकनीकों को दर्शाता है। मैं वास्तव में कुछ लोगों को जानता हूं जिनके पास अपने कागजात को अस्वीकार कर दिया गया था क्योंकि उन्होंने प्रदर्शन का मूल्यांकन करने के लिए आंकड़ों का उपयोग किया था।
  • तंत्रिका जाल आगमनात्मक होते हैं, वे सामान को सही ढंग से वर्गीकृत कर सकते हैं यदि कोई भी या कुछ उदाहरण उनके प्रशिक्षण सेट में नहीं थे।
  • DARPA फंडिंग का काम है, और हम सभी जानते हैं कि DARPA जो कुछ भी करता है वह एक विजेता है। (Google अभी तक आसपास नहीं था)
  • प्रदर्शन अद्भुत नहीं है, एक भ्रम मैट्रिक्स की आवश्यकता नहीं है, क्लास पादरियों की आवश्यकता नहीं है, मैं सिर्फ आपको बता सकता हूं कि मेरी त्रुटि की संभावना क्या है। सीमा की जरूरत नहीं है, मैं सिर्फ एक-एक-आउट-आउट और फेरबदल करना चाहता हूँ।
  • कुछ विशेषताओं को चुनें और इसके लिए जाएं, इसका ब्लैक बॉक्स, स्केलिंग, डेटा संरेखण, अव्यवस्था अस्वीकृति, खराब लेबल, कई वर्गों की घटना, मेरी समस्या नहीं।
  • मठ का कोहरा, बोल्ट्जमैन मशीनें
  • चलो एक एसवीडी और शायद एक भग्न आयाम वाली चीज़ में फेंक दें।
  • पर्यवेक्षित / अनुपलब्ध चारा और स्विच, मुझे आपके सभी छिपे हुए पैटर्न मिलेंगे। यह साहचर्य स्मृति बात गहरा नहीं है?

इसने बिशप की किताब को मेरे निंदकपन को कम करने के लिए लिया।

कुछ अनुप्रयोगों से अधिक में, इष्टतम सिग्नल प्रोसेसिंग एल्गोरिथ्म को एक बड़े पैरामीटर स्थान पर एक विस्तृत गणना की आवश्यकता होगी जो जल्दी से अप्राप्य हो जाता है। एक बड़ा सर्वर फ़ार्म उस प्राप्य खोज स्थान को बढ़ा सकता है लेकिन कुछ बिंदु पर, आपको एक अनुमानी खोजने की आवश्यकता है। डीएल को लगता है कि उनमें से कुछ अनुमान लगाने में सक्षम है, लेकिन यह अंतर्निहित एनपी हार्ड अनुकूलन को हल नहीं करता है।


आप पूरी तरह से निंदक को नीचे गिराने में पूरी तरह से सही हैं क्योंकि ऐसा लगता है कि कई लोगों को नीचे रखा गया है। मैं कभी-कभी कामना करता हूं कि मैंने जीवन में पहले यह सीखा।
गणितज्ञ

3

विश्वविद्यालय से मेरा दृष्टिकोण यह था कि कई सिग्नल प्रोसेसिंग करने वाले लोग एमएल के प्रति थोड़ा शत्रुतापूर्ण थे, मुझे संदेह है क्योंकि उन्हें लगा कि यह धमकी दी गई थी कि यह उनके डोमेन पर अतिक्रमण कर रहा है। लेकिन हाल ही में जटिल मूल्यवान गहरे तंत्रिका नेटवर्क के लाभों में बहुत सारे शोध हुए हैं, जो सुझाव दे सकते हैं कि सुनहरा टिकट वास्तव में दोनों विषयों की एक ठोस समझ है।


1
हां। सिग्नल प्रोसेसिंग मशीन सीखने से बहुत निकटता से संबंधित है। सिग्नल प्रोसेसिंग की एक ठोस समझ एमएल एल्गोरिदम का निर्माण और उपयोग करने के तरीके को समझने में मदद करती है और किस तरह का डेटा है (संयुक्त राष्ट्र) उन्हें खिलाने के लिए उपयुक्त है।
मैथडेलर जूल

2

सही है। इसी तरह से C ++ और पायथन जैसी उच्च स्तरीय प्रोग्रामिंग भाषाओं में विकास ने 'असेंबली प्रोग्रामिंग' को मार दिया। हालांकि इसका मतलब यह नहीं है कि जब आप किसी सीएस कोर्स में दाखिला लेते हैं तो असेंबली सीखना अप्रासंगिक होता है। यह बहुत जानकारी प्रदान करता है कि कंप्यूटर कैसे काम करता है, उच्च स्तर की भाषाओं के पर्दे के पीछे क्या चलता है, कंप्यूटर भाषा के मूल सिद्धांत क्या हैं, आदि, लेकिन उनके सही दिमाग में कोई भी अब विधानसभा में एक डेस्कटॉप ऐप प्रोग्राम नहीं करेगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.