दीप लर्निंग दृष्टिकोण के साथ और विकल्प के मुद्दे?


17

पिछले 50 वर्षों में, तंत्रिका जाल की लोकप्रियता में वृद्धि / गिरावट ने AI अनुसंधान के लिए एक 'बैरोमीटर' के रूप में काम किया है।

इस साइट के सवालों से यह स्पष्ट है कि लोग डीप लर्निंग (डीएल) को लागू करने में रुचि रखते हैं और विभिन्न प्रकार की कठिन समस्याओं का सामना करते हैं।

इसलिए मेरे दो सवाल हैं:

  1. प्रैक्टिशनर - आप अपनी समस्या के लिए डीएल 'आउट ऑफ द बॉक्स' लगाने में मुख्य बाधा क्या पाते हैं?
  2. शोधकर्ता - आप किन तकनीकों (या विकसित) का उपयोग करते हैं जो व्यावहारिक मुद्दों को हल करने में मदद कर सकते हैं? क्या वे डीएल के भीतर हैं या वे एक वैकल्पिक दृष्टिकोण प्रदान करते हैं?

3
यदि आपके दो प्रश्न हैं, तो आपको दो प्रश्न पूछने चाहिए।
bpachev

1
वे स्पष्ट रूप से अंतर-संबंधित हैं।
नीत्शेचएनाई

जवाबों:


5

संक्षेप में, लागू डीप लर्निंग में दो प्रमुख मुद्दे हैं।

  • पहली बार कम्प्यूटेशनल रूप से, यह संपूर्ण है। सामान्य सीपीयू को डीप लर्निंग के साथ बुनियादी गणना / प्रशिक्षण करने के लिए बहुत समय की आवश्यकता होती है। इस प्रकार GPU की सिफारिश की जाती है, यहां तक ​​कि वे बहुत सारी स्थितियों में पर्याप्त नहीं हो सकते हैं। आमतौर पर गहरे सीखने वाले मॉडल पॉलिनोमियल में होने के सैद्धांतिक समय का समर्थन नहीं करते हैं। हालांकि, अगर हम समान कार्यों के लिए एमएल में अपेक्षाकृत सरल मॉडल देखते हैं, तो भी अक्सर हमारे पास गणितीय गारंटी होती है कि इस तरह के सरल एल्गोरिदम के लिए आवश्यक प्रशिक्षण समय पॉलिनॉमिअल्स में है। यह, मेरे लिए, कम से कम शायद सबसे बड़ा अंतर है।

    इस मुद्दे का मुकाबला करने के लिए समाधान हैं, हालांकि। एक मुख्य दृष्टिकोण डीएल एल्गोरिदम को केवल कई पुनरावृत्तियों के लिए अनुकूलित करना है (व्यवहार में वैश्विक समाधानों को देखने के बजाय, बस एल्गोरिदम को एक अच्छे स्थानीय समाधान के लिए अनुकूलित करना है, जबकि "गुड" के लिए मानदंड उपयोगकर्ता द्वारा परिभाषित किया गया है)।

  • एक और मुद्दा जो युवा गहरे सीखने के प्रति उत्साही के लिए थोड़ा विवादास्पद हो सकता है वह यह है कि डीप लर्निंग एल्गोरिदम में सैद्धांतिक समझ और तर्क की कमी है। डीप न्यूरल नेटवर्क्स का उपयोग बहुत सारी स्थितियों में सफलतापूर्वक किया गया है जिसमें हैंड राइटिंग रिकग्निशन, इमेज प्रोसेसिंग, सेल्फ ड्राइविंग कार, सिग्नल प्रोसेसिंग, एनएलपी और बायोमेडिकल एनालिसिस शामिल हैं। इनमें से कुछ मामलों में, वे मनुष्यों से भी आगे निकल गए हैं। हालाँकि, यह कहा जा रहा है, वे किसी भी परिस्थिति में नहीं हैं, सैद्धांतिक रूप से अधिकांश सांख्यिकीय विधियों के रूप में ध्वनि।

    मैं विस्तार में नहीं जाऊंगा, बल्कि मैं आपको छोड़ देता हूं। प्रत्येक एल्गोरिथ्म / पद्धति के लिए पेशेवरों और विपक्ष हैं और डीएल एक अपवाद नहीं है। यह बहुत उपयोगी है जैसा कि बहुत सी स्थितियों में सिद्ध किया गया है और प्रत्येक युवा डेटा वैज्ञानिक को कम से कम डीएल की मूल बातें अवश्य सीखनी चाहिए। हालांकि, अपेक्षाकृत सरल समस्याओं के मामले में, प्रसिद्ध सांख्यिकीय विधियों का उपयोग करना बेहतर है क्योंकि उनके पास समर्थन करने के लिए बहुत सारे सैद्धांतिक परिणाम / गारंटी हैं। इसके अलावा, सीखने के दृष्टिकोण से, हमेशा सरल दृष्टिकोण के साथ शुरू करना और उन्हें पहले मास्टर करना बेहतर होता है।


'बहुपद में' का मतलब 'बहुपद समय में' से है, है ना? क्या आपको उस समर्थन का संदर्भ मिला है?
NietzscheanAI

हां, मेरा यही मतलब है। ज़रूर, यह बहुत सारी स्थितियों में साबित किया जा सकता है ... मैं सबसे सरल संभव उदाहरण के साथ शुरू करूंगा, बस तीन नोड्स के साथ एक नेटवर्क का प्रशिक्षण, और दो परतों एनपी-पूर्ण समस्या है जैसा कि यहां दिखाया गया है। ( citeseerx.ist.psu edu / viewdoc /… )। याद रखें कि यह कागज बहुत पुराना है, और अब हमारे पास कुछ विचारों को व्यवहार में सुधार करने के बारे में अधिक विचार हैं, कुछ अनुमानों के साथ, लेकिन फिर भी, सैद्धांतिक रूप से, कोई बेहतर परिणाम नहीं हैं।
सिबघट उल्लाह

इसी मुद्दे पर अन्य अच्छे लेख, जो अभ्यास में प्रशिक्षण के समय को बेहतर बनाने के लिए कुछ तरकीबों का भी वर्णन करते हैं। ( pdfs.semanticscholar.org/9499/… )
सिबघाट उल्लाह

मान लीजिए, हम किसी चीज़ की कीमत का अनुमान लगाना चाहते हैं। कम से कम वर्ग फिट के साथ सरल रैखिक प्रतिगमन में एक बहुपद समय होगा, जबकि तंत्रिका नेटवर्क (यहां तक ​​कि उनमें से सबसे सरल) के साथ एक ही मुद्दे को हल करने से एनपी पूरी समस्या हो जाएगी। यह बहुत बड़ा अंतर है। आखिरकार, आपको किसी विशिष्ट कार्य के लिए एल्गोरिदम का सावधानीपूर्वक चयन करना होगा। उदाहरण के लिए, लिस्ट स्क्वायर फिट में विशिष्ट धारणाएं हैं, जिसमें शामिल है, "आदर्श फ़ंक्शन जो एल्गोरिथ्म सीख रहा है, उसे सुविधाओं के रैखिक संयोजन के रूप में सीखा जा सकता है"। यदि वह धारणा मान्य नहीं है, तो परिणाम प्राप्त होते हैं।
सिबघट उल्लाह

बेशक, सिर्फ इसलिए कि एक समस्या (इस मामले में, इष्टतम वजन खोजना) एनपी-पूर्ण नहीं है, इसका मतलब यह नहीं है कि अच्छे वजन को खोजने के लिए कुशल व्यावहारिक तरीके नहीं हैं ...
NietzscheanAI

5

मुझे खुद को प्रैक्टिशनर कहने के लिए ML / DL के साथ बहुत कम अनुभव है, लेकिन यहाँ 1 प्रश्न पर मेरा जवाब है:

इसके मूल में DL वर्गीकरण के कार्य को अच्छी तरह से हल करता है। हर व्यावहारिक समस्या को वर्गीकरण के संदर्भ में नहीं दोहराया जा सकता है। वर्गीकरण डोमेन को अग्रिम रूप से जाना जाना चाहिए। हालांकि वर्गीकरण को किसी भी प्रकार के डेटा पर लागू किया जा सकता है, लेकिन एनएन को विशिष्ट डोमेन के नमूनों के साथ प्रशिक्षित करना आवश्यक है जहां इसे लागू किया जाएगा। यदि समान मॉडल (NN संरचना) को रखते हुए डोमेन को किसी बिंदु पर स्विच किया जाता है, तो उसे नए नमूनों के साथ फिर से देखना होगा। इसके अलावा, यहां तक ​​कि सबसे अच्छे क्लासीफायर में भी "अंतराल" होता है - एडवांसरियल उदाहरणों को आसानी से एक प्रशिक्षण नमूने से निर्मित किया जा सकता है, जैसे कि परिवर्तन मानव के लिए अस्वीकार्य हैं, लेकिन प्रशिक्षित मॉडल द्वारा गलत हैं।


2
'वर्गीकरण' को 'प्रतिगमन' का एक विशेष मामला माना जा सकता है, जो संभवतः इसलिए डीएल का एक बेहतर लक्षण वर्णन है।
नीत्शेचयनए

3

प्रश्न 2. मैं शोध कर रहा हूं कि क्या हाइपर आयामी कंप्यूटिंग डीप लर्निंग का एक विकल्प है। हाइपर-डी जानकारी सांकेतिक शब्दों में बदलना करने के लिए बहुत लंबे बिट वैक्टर (10,000 बिट्स) का उपयोग करता है। वैक्टर यादृच्छिक हैं और जैसे कि वे लगभग ऑर्थोगोनल हैं। ऐसे वैक्टरों के संग्रह को समूहीकृत और औसत करके एक "सेट" का गठन किया जा सकता है और बाद में यह देखने के लिए कि क्या कोई अज्ञात वेक्टर सेट से संबंधित है। सेट को एक अवधारणा या सामान्य छवि माना जा सकता है, आदि प्रशिक्षण बहुत तेज़ है क्योंकि मान्यता है। जिन चीज़ों को करने की ज़रूरत है, उन डोमेन का अनुकरण करें जिसमें डीप लर्निंग सफल रहा है और हाइपर-डी की तुलना इसके साथ करें।


दिलचस्प। तो यह कन्वेरा की 'स्पार्स डिस्ट्रिब्यूटेड मेमोरी' से कैसे भिन्न है?
NietzscheanAI

दोनों का विकास पेंटी कानवेरा द्वारा किया गया है। अंतर देखने के लिए हाइपर डायनामिक कंप्यूटिंग देखें। यहां जवाब देने के लिए बहुत लंबा है।
डगलस जी डैनफोर्थ

1

गणित के दृष्टिकोण से कई परतों वाले गहरे नेटवर्क में प्रमुख मुद्दों में से एक गायब है या अस्थिर ग्रेडिएंट हैं । प्रत्येक अतिरिक्त छिपी परत काफी धीमी सीखती है, अतिरिक्त परत के लाभ को लगभग शून्य कर देती है।

आधुनिक गहन शिक्षण दृष्टिकोण इस व्यवहार में सुधार कर सकते हैं, लेकिन सरल, पुराने जमाने के तंत्रिका नेटवर्क में यह एक प्रसिद्ध मुद्दा है। गहन अध्ययन के लिए आप यहां एक अच्छा लिखित विश्लेषण पा सकते हैं ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.