क्या वास्तव में गहन शिक्षा पर मौलिक सिद्धांत की कमी है?


10

मैंने कई बार सुना कि गहरी सीखने की मूलभूत / खुली समस्याओं में से एक "सामान्य सिद्धांत" की कमी है क्योंकि वास्तव में हम यह नहीं जानते कि गहरी शिक्षा इतनी अच्छी तरह से क्यों काम करती है। यहां तक ​​कि गहरी शिक्षा पर विकिपीडिया पृष्ठ पर भी ऐसी ही टिप्पणियां हैं । क्या ऐसे बयान विश्वसनीय और क्षेत्र के राज्य के प्रतिनिधि हैं?

जवाबों:


5

एक पेपर कहा जाता है क्यों डीप लर्निंग इतनी अच्छी तरह से काम करता है?

"हालांकि, यह अभी भी पूरी तरह से समझ में नहीं आया है कि गहन शिक्षण इतनी अच्छी तरह से क्यों काम करता है। GOFAI (" अच्छे पुराने जमाने के AI ") के विपरीत, एल्गोरिदम जो हाथ से तैयार किए गए और पूरी तरह से विश्लेषणात्मक रूप से समझे जाते हैं, कृत्रिम तंत्रिका नेटवर्क का उपयोग करने वाले कई एल्गोरिदम केवल समझ में आते हैं। एक आनुवांशिक स्तर, जहां हम अनुभवजन्य रूप से जानते हैं कि बड़े डेटा सेटों को नियोजित करने वाले कुछ प्रशिक्षण प्रोटोकॉल के परिणामस्वरूप उत्कृष्ट प्रदर्शन होगा। यह मानव दिमाग के साथ स्थिति की याद दिलाता है: हम जानते हैं कि यदि हम एक निश्चित पाठ्यक्रम के अनुसार एक बच्चे को प्रशिक्षित करते हैं, तो वह कुछ सीखेगा। कौशल - लेकिन हमें इस बात की गहरी समझ की कमी है कि उसका मस्तिष्क इसे कैसे पूरा करता है। ”


3

यह बहुत मामला है। डीप लर्निंग मॉडल भी उथले हैं जैसे कि स्टैक किए गए ऑटोएन्कोडर्स और न्यूरल नेटवर्क पूरी तरह से समझ में नहीं आते हैं। इस तरह के एक जटिल चर गहन कार्य के लिए अनुकूलन प्रक्रिया के लिए क्या हो रहा है, यह समझने की कोशिश की जा रही है। लेकिन, यह एक मुश्किल काम है।

एक तरीका जो शोधकर्ता यह जानने के लिए उपयोग कर रहे हैं कि जेनेरिक मॉडल का उपयोग करके सीखने का कार्य कितना गहरा है। पहले हम एक शिक्षण एल्गोरिथ्म को प्रशिक्षित करते हैं और इसे व्यवस्थित करते हुए इसे उदाहरणों को उत्पन्न करने के लिए कहते हैं। परिणामी उत्पन्न उदाहरणों को देखकर हम यह पता लगाने में सक्षम होंगे कि एल्गोरिथ्म में अधिक महत्वपूर्ण स्तर पर क्या हो रहा है। यह न्यूरोसाइंस में अवरोधकों का उपयोग करने के लिए बहुत पसंद है यह समझने के लिए कि मस्तिष्क के विभिन्न घटकों का उपयोग किस लिए किया जाता है। उदाहरण के लिए, हम जानते हैं कि दृश्य कॉर्टेक्स वह जगह है जहां यह है क्योंकि अगर हम इसे नुकसान पहुंचाते हैं तो आप अंधे हो जाएंगे।


2

यह संभवत: इस बात पर निर्भर करता है कि "मौलिक सिद्धांत" का क्या अर्थ है, लेकिन इसके विपरीत गहन अध्ययन में कठोर परिमाणात्मक सिद्धांत की कोई कमी नहीं है, जिनमें से कुछ इसके विपरीत होने के बावजूद बहुत सामान्य हैं।

एक अच्छा उदाहरण सीखने के लिए ऊर्जा-आधारित तरीकों के आसपास का काम है। उदाहरण के लिए, नील और हिंटन के कार्य को वैरिएशन के संदर्भ और नि: शुल्क ऊर्जा पर देखें: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

इसके अलावा, Yann LeCun और सहकर्मियों द्वारा "कई शिक्षण मॉडल के लिए एक सामान्य सैद्धांतिक ढांचा" के रूप में ऊर्जा को कम करने के लिए इस गाइड: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

और स्केलियर और बेंगियो द्वारा ऊर्जा-आधारित मॉडल के लिए एक सामान्य ढांचा: https://arxiv.org/pdf/1602.05179.pdf

Hinton & Sejnowski का पहले का काम भी है जो विश्लेषणात्मक रूप से दिखाता है कि एक विशेष हॉपफील्ड-प्रेरित नेटवर्क + अनपुर्ज्ड लर्निंग अल्गोरिद्म बे-इष्टतम अनुमान को अनुमानित कर सकता है: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983983 -646.pdf

सैद्धांतिक तंत्रिका विज्ञान के साथ गहरी शिक्षा को जोड़ने के कई कागजात हैं, जैसे कि निम्नलिखित, जो दर्शाता है कि जैविक रूप से प्रशंसनीय तंत्रिका आर्किटेक्चर में backpropagation के प्रभाव को प्राप्त किया जा सकता है: https://arxiv.org//df/1411.0247.pdf

बेशक कई खुले सवाल हैं और कोई एकल, अनियंत्रित एकीकृत सिद्धांत नहीं है, लेकिन लगभग किसी भी क्षेत्र के बारे में कहा जा सकता है।


1

आपकी विकिपीडिया बोली संदिग्ध है क्योंकि गहन शिक्षण अच्छी तरह से विकसित है। वास्तव में, [citation needed]विकिपीडिया पृष्ठ पर एक है ।

Https://github.com/terryum/awesome-deep-learning-papers को देखें । लिंक में 100 पेपर जैसे हैं, क्या आपको अभी भी लगता है कि डीप-लर्निंग में "सामान्य सिद्धांत" की कमी है?

हाँ। डीप लर्निंग को समझना कठिन है क्योंकि यह एक बहुत ही जटिल मॉडल है। लेकिन इसका मतलब यह नहीं है कि हमारे पास सिद्धांत नहीं हैं।

शायद limeपैकेज और यह कागज है: "मुझे आप पर भरोसा क्यों करना चाहिए?": किसी भी क्लासिफायर की भविष्यवाणियों को समझाने से आपको मदद मिलेगी। कागज से पता चलता है कि हमें एक जटिल मॉडल (गहरी शिक्षा शामिल है) को स्थानीय स्तर पर बहुत सरल मॉडल के साथ अनुमानित करने में सक्षम होना चाहिए।


3
दिलचस्प अनुप्रयोगों के बहुत सारे का मतलब यह नहीं है कि उन अनुप्रयोगों को कुछ कठोर प्रक्रिया के बाद विकसित किया गया था। "हम्म ... शायद मुझे इसके बजाय 8 परतों की कोशिश करनी चाहिए! आह .. यह काम करता है! महान, चलो परिणाम प्रकाशित करें।"
क्रिस एंडरसन

2
"गहरी शिक्षा को समझना कठिन है क्योंकि यह एक बहुत ही जटिल मॉडल है। लेकिन इसका मतलब यह नहीं है कि हमारे पास सिद्धांत नहीं हैं।" सच है, लेकिन हमारे पास सिद्धांत भी नहीं हैं। साहित्य में तकनीकों की गणितीय समझ बहुत कम है। कैसे और क्यों गहरी सीखने के काम के लिए अधिकांश स्पष्टीकरण अंतर्ज्ञान और अनुभववाद पर आधारित हैं, जो ठीक है, लेकिन एक सिद्धांत के रूप में नहीं बनता है।
user27182

0

एक महत्वपूर्ण सवाल जो गहन सीखने के सिद्धांत में बना हुआ है, वह यह है कि ऐसे विशाल मॉडल (डेटा बिंदुओं की तुलना में कई अधिक मापदंडों के साथ) हमारे द्वारा उपयोग किए जाने वाले डेटासेट पर ओवरफिट नहीं करते हैं।

जटिलता के उपायों पर आधारित शास्त्रीय सिद्धांत व्यावहारिक तंत्रिका नेटवर्क के व्यवहार की व्याख्या नहीं करता है। उदाहरण के लिए वीसी आयाम के अनुमानों में सामान्यीकरण सीमाएँ हैं। जहां तक ​​मुझे पता है, वीसी आयाम पर सबसे तंग (ऊपरी और निचले) सीमाएं [1] में दी गई हैं और नेटवर्क में वजन की संख्या के क्रम पर हैं। स्पष्ट रूप से यह सबसे खराब स्थिति जटिलता यह नहीं बता सकती है कि कैसे CIFAR या MNIST पर एक बड़ा Resnet सामान्यीकरण करता है।

हाल ही में तंत्रिका नेटवर्क के लिए सामान्यीकरण सुनिश्चित करने के लिए अन्य प्रयास किए गए हैं, उदाहरण के लिए तंत्रिका स्पर्शरेखा कर्नेल के संबंध में या वज़न पर विभिन्न मानक उपायों द्वारा। क्रमशः, ये व्यावहारिक रूप से आकार के नेटवर्क पर लागू नहीं होने और अन्य असंतोषजनक गुणों [2] के लिए पाए गए हैं।

गैर-रिक्त सीमा के लिए PAC बेयस ढांचे में कुछ काम है, उदाहरण के लिए [3]। हालाँकि, इन सेटअपों को प्रशिक्षित नेटवर्क के कुछ ज्ञान की आवश्यकता होती है और इसलिए शास्त्रीय PAC विश्लेषण के स्वाद में भिन्न होते हैं।

कुछ अन्य पहलू:

  • अनुकूलन: ऐसी गैर-उत्तल समस्या पर हम धीरे-धीरे कैसे 'अच्छे' समाधान प्राप्त कर सकते हैं? (हाल के साहित्य में इसके कुछ उत्तर हैं)

  • व्याख्या: क्या हम एक सहज स्तर पर समझा सकते हैं कि नेटवर्क 'सोच' क्या है? (मेरा क्षेत्र नहीं)

(अपूर्ण) संदर्भ:


0

मैं यह बताना चाहता हूं कि मशीन लर्निंग सामान्य रूप से काम क्यों नहीं करता है, इस पर एक अच्छा सिद्धांत नहीं है। वीसी सीमा अभी भी एक मॉडल मानते हैं, लेकिन वास्तविकता इन गणितीय आदर्शों में से किसी पर फिट नहीं होती है। अंततः जब आवेदन की बात आती है तो सब कुछ अपरिमेय परिणामों के लिए नीचे आता है। यहां तक ​​कि एक एल्गोरिथ्म का उपयोग करके छवियों के बीच समानता को निर्धारित करना जो मानव सहज ज्ञान युक्त समझ के अनुरूप है वास्तव में कठिन है

वैसे भी एनएन न तो उनके पूरी तरह से जुड़े रूप में अच्छी तरह से काम करते हैं। सभी सफल नेटवर्कों में नेटवर्क आर्किटेक्चर (CNN, LSTM, आदि) में निर्मित किसी न किसी तरह का नियमितीकरण होता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.