टीसीएस किस तरह का जवाब चाहता है "तंत्रिका नेटवर्क इतनी अच्छी तरह से काम क्यों करते हैं?"


52

मेरी पीएच.डी. शुद्ध गणित में है, और मैं मानता हूँ कि मैं सैद्धांतिक सीएस के बारे में बहुत कुछ (यानी कुछ भी) नहीं जानता। हालांकि, मैंने अपने करियर के लिए गैर-शैक्षणिक विकल्पों की खोज शुरू कर दी है और मशीन सीखने के लिए खुद को पेश किया है, "कोई नहीं समझता कि तंत्रिका नेटवर्क अच्छी तरह से काम क्यों करते हैं" जैसे बयानों के साथ ठोकर खाई, जो मुझे दिलचस्प लगा।

मेरा प्रश्न, अनिवार्य रूप से, शोधकर्ताओं को किस प्रकार के उत्तर चाहिए? मैंने इस विषय पर अपनी संक्षिप्त खोज में क्या पाया है:

  • सरल तंत्रिका नेटवर्क को लागू करने वाले एल्गोरिदम बहुत सीधे हैं।
  • SGD की प्रक्रिया गणितीय रूप से अच्छी तरह से समझी जाती है, जैसा कि सांख्यिकीय सिद्धांत है।
  • सार्वभौमिक सन्निकटन प्रमेय शक्तिशाली और सिद्ध है।
  • एक अच्छा हालिया पेपर https://arxiv.org/abs/1608.08225 है जो अनिवार्य रूप से उत्तर देता है कि सार्वभौमिक सन्निकटन वास्तव में अभ्यास की आवश्यकता से बहुत अधिक है क्योंकि हम उन कार्यों के बारे में मजबूत सरल अनुमान लगा सकते हैं जिन्हें हम मॉडल के साथ करने की कोशिश कर रहे हैं। तंत्रिका नेटवर्क।

पूर्वोक्त कागज में, वे कहते हैं (पैराफ़्रास्टिंग) "GOFAI एल्गोरिदम को पूरी तरह से विश्लेषणात्मक रूप से समझा जाता है, लेकिन कई ANN एल्गोरिदम केवल हेयुरिस्टली समझे जाते हैं।" कार्यान्वित एल्गोरिदम के लिए अभिसरण सिद्धांत, विश्लेषणात्मक समझ का एक उदाहरण है जो ऐसा लगता है कि हमारे पास तंत्रिका नेटवर्क के बारे में है, इसलिए सामान्यता के इस स्तर पर एक बयान मुझे इस बारे में ज्यादा नहीं बताता है कि अज्ञात बनाम अज्ञात के रूप में क्या माना जाता है "एक जवाब" । "

लेखक इस निष्कर्ष में सुझाव देते हैं कि किसी दिए गए बहुपद को अनुमानित करने के लिए आवश्यक तंत्रिका नेटवर्क के आकार पर प्रभावी सीमा जैसे प्रश्न खुले और दिलचस्प हैं। गणितीय रूप से विशिष्ट विश्लेषणात्मक प्रश्नों के अन्य उदाहरण क्या हैं जिन्हें यह कहने के लिए उत्तर देने की आवश्यकता होगी कि हम तंत्रिका नेटवर्क को "समझते हैं"? क्या ऐसे प्रश्न हैं जिनका उत्तर अधिक शुद्ध गणितीय भाषा में दिया जा सकता है?

(मैं विशेष रूप से इस पेपर में भौतिकी के उपयोग के कारण प्रतिनिधित्व सिद्धांत में तरीकों के बारे में सोच रहा हूं --- और, स्वार्थी रूप से, क्योंकि यह मेरे अध्ययन का क्षेत्र है। हालांकि, मैं कॉम्बिनेटरिक्स / ग्राफ सिद्धांत, बीजीय ज्यामिति जैसे क्षेत्रों की भी कल्पना कर सकता हूं। , और टोपोलॉजी व्यवहार्य उपकरण प्रदान करते हैं।)


3
क्या GOFAI वास्तव में अच्छी तरह से समझा गया है? बहुत से GOFAI SAT को हल करने के लिए उकसाता है, जो कि आर्कटिक एनपी-पूर्ण समस्या है। आधुनिक सैट सॉल्वर व्यावहारिक रूप से अच्छी तरह से काम करते हैं, भले ही वे मौजूदा सिद्धांत के अनुसार न हों। क्यों?
मार्टिन बर्गर

इस क्षेत्र में वास्तव में पूर्व-गहन सीखने और बाद के गहन अध्ययन अध्ययन / परिवर्तन / इतिहास है और क्षेत्र में इसकी एक प्रमुख प्रतिमान पारी है। पिछले आधे दशक के भीतर ही गहरी शिक्षा प्राप्त हुई। सरल उत्तर यह है कि तंत्रिका नेटवर्क मनमाने ढंग से जटिल कार्यों का प्रतिनिधित्व कर सकते हैं और यह जटिलता अब गहरे तंत्रिका नेटवर्क के साथ बहुत उन्नत स्तर पर है। एक अन्य उत्तर यह है कि जिन समस्याओं का अध्ययन किया गया है, और शायद "सामान्य रूप से वास्तविकता" भी, "सुविधाओं से बाहर निर्मित" हैं और एएनएन अब बहुत जटिल सुविधाओं को सीखने में माहिर हैं।
vzn

मुझे नहीं लगता कि लोग वास्तव में "उत्तर" की खोज कर रहे हैं। वे समस्याओं को हल करने के लिए तंत्रिका नेटवर्क का उपयोग करना चाहते हैं, और यदि समस्या वास्तव में हल हो गई है तो यह ठीक है। यह जानना कि नेटवर्क उस समाधान तक कैसे पहुंचा, यह जरूरी नहीं कि यहां रुचि हो। जब तक यह समस्या हल करती है, तब तक कोई भी इसकी परवाह नहीं करता है कि यह एक काला / अपारदर्शी बॉक्स है।
xji

जवाबों:


38

मशीन लर्निंग में "नो फ्री लंच" प्रमेयों का एक समूह है, मोटे तौर पर यह कहते हुए कि कोई एक मास्टर लर्निंग एल्गोरिदम नहीं हो सकता है जो अन्य सभी एल्गोरिदम की तुलना में समान रूप से बेहतर प्रदर्शन करता है (देखें, उदाहरण के लिए, यहां http: //www.no-free- दोपहर का भोजन ।/ )। निश्चित रूप से, गहरी शिक्षा को बिना किसी कठिनाई के "तोड़ा" जा सकता है: http://www.evolveai.org/fooling

इसलिए, सिद्ध रूप से प्रभावी होने के लिए, एक शिक्षार्थी को आगमनात्मक पूर्वाग्रह की आवश्यकता होती है --- अर्थात, डेटा के बारे में कुछ पूर्व धारणाएं। आगमनात्मक पूर्वाग्रह के उदाहरणों में डेटा स्पार्सिटी, या कम आयामीता की धारणाएं शामिल हैं, या यह कि वितरण अच्छी तरह से होता है, या एक बड़ा मार्जिन होता है, आदि विभिन्न सफल शिक्षण एल्गोरिदम सामान्यीकरण की गारंटी साबित करने के लिए इन धारणाओं का फायदा उठाते हैं। उदाहरण के लिए, (रैखिक) SVM अच्छी तरह से काम करता है जब डेटा अंतरिक्ष में अच्छी तरह से अलग हो जाता है; अन्यथा - इतना नहीं।

मुझे लगता है कि गहरी शिक्षा के साथ मुख्य चुनौती यह समझना है कि इसका प्रेरक पूर्वाग्रह क्या है। दूसरे शब्दों में, यह प्रकार के प्रमेयों को साबित करना है: यदि प्रशिक्षण डेटा इन मान्यताओं को संतुष्ट करता है, तो मैं सामान्यीकरण प्रदर्शन के बारे में कुछ गारंटी दे सकता हूं। (अन्यथा, सभी दांव बंद हैं।)

अपडेट (सितंबर 2019): मेरे पोस्ट किए गए जवाब के बाद से दो वर्षों में, विभिन्न डीएल और संबंधित एल्गोरिदम में आगमनात्मक पूर्वाग्रह को समझने में काफी प्रगति हुई है। प्रमुख अंतर्दृष्टि में से एक यह है कि उपयोग किए जा रहे वास्तविक अनुकूलन एल्गोरिदम महत्वपूर्ण है, क्योंकि वर्दी अभिसरण यह स्पष्ट नहीं कर सकता है कि बड़े पैमाने पर अति-पैरामीट्रिक प्रणाली जैसे कि बड़े एएनएन सभी को सीखने का प्रबंधन क्यों करते हैं। यह पता चला है कि विभिन्न अनुकूलन विधियाँ (जैसे कि ) विभिन्न मानदंडों (जैसे कि ) के संबंध में स्पष्ट रूप से नियमित हैं । अन्य उदाहरणों और बहुत कुछ के लिए यह उत्कृष्ट व्याख्यान देखें: https://www.youtube.com/watch?v=zK84N6ST9sM2


यह ध्यान दिया जाना चाहिए कि गहरे तंत्रिका नेटवर्क के लिए प्रतिकूल उदाहरण अद्वितीय नहीं हैं। वे आसानी से लीनियर और लॉजिस्टिक रिग्रेशन के लिए भी निर्मित किए जा सकते हैं, उदाहरण के लिए: arxiv.org/pdf/1412.6572.pdf
लेनर होयट

1
हां, लेकिन रैखिक और लॉजिस्टिक प्रतिगमन सैद्धांतिक रूप से बहुत बेहतर समझा जाता है।
आर्येह

2
यह शायद यह भी ध्यान दिया जाना चाहिए कि एनएफएल प्रमेय व्यावहारिक मशीन सीखने में एक बड़ी भूमिका नहीं निभा सकता है क्योंकि एनएफएल सभी कार्यों के वर्ग से संबंधित है , वास्तविक दुनिया की समस्याएं आम तौर पर जैसे चिकनी कार्यों या और भी विशिष्ट कार्यों जैसे विवश हैं। लिन और टेगमार्क द्वारा कागज पर विचार किया गया। यह आगमनात्मक पूर्वाग्रहों कि सभी सीखने की समस्याओं है कि हम में रुचि रखते हैं कवर को खोजने के लिए संभव हो सकता है।
Lenar होयत

4
तब हमें सबसे पहले "सभी सीखने की समस्याओं कि हम रुचि रखते हैं" के इस स्थान को औपचारिक बनाना चाहिए।
Aryeh

1
यह निश्चित रूप से सार्थक है, खासकर एआई सुरक्षा के संबंध में। हमें एक मशीन लर्निंग एल्गोरिदम को सीखने के लिए क्या करना चाहिए, इसे मज़बूती से बताने में सक्षम होना चाहिए।
लेनार होयट

26

तंत्रिका नेटवर्क की हमारी समझ में दो मुख्य अंतराल हैं: अनुकूलन कठोरता और सामान्यीकरण प्रदर्शन।

तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए उच्च आयामों में अत्यधिक गैर-उत्तल अनुकूलन समस्या को हल करने की आवश्यकता होती है। वर्तमान प्रशिक्षण एल्गोरिदम सभी ग्रेडिएंट वंश पर आधारित हैं, जो केवल एक महत्वपूर्ण बिंदु (स्थानीय न्यूनतम या काठी) के अभिसरण की गारंटी देता है। वास्तव में, आनंदकुमार और जीई 2016 ने हाल ही में साबित कर दिया कि एक स्थानीय न्यूनतम भी एनपी-हार्ड है, जिसका अर्थ है कि (पी = एनपी को मानते हुए) "बुरा" मौजूद है, बचने के लिए मुश्किल है, त्रुटि सतह में काठी अंक।
फिर भी, ये प्रशिक्षण एल्गोरिदम व्यावहारिक रूप से कई व्यावहारिक समस्याओं के लिए प्रभावी हैं, और हम नहीं जानते कि क्यों। चोरोमांस्का एट अल
जैसे सैद्धांतिक पेपर हुए हैं । 2016 और कवागुची 2016जो साबित करते हैं कि, कुछ मान्यताओं के तहत, स्थानीय मिनीमा अनिवार्य रूप से वैश्विक मिनीमा के रूप में अच्छे हैं, लेकिन वे जो धारणाएं बनाते हैं वे कुछ हद तक अवास्तविक हैं और वे बुरे काठी बिंदुओं के मुद्दे को संबोधित नहीं करते हैं।

हमारी समझ में अन्य मुख्य अंतर सामान्यीकरण प्रदर्शन है: प्रशिक्षण के दौरान मॉडल को उपन्यास के उदाहरणों में कितनी अच्छी तरह से नहीं देखा जाता है? यह दिखाना आसान है कि अनंत संख्या में प्रशिक्षण के उदाहरणों की सीमा में (एक स्थिर वितरण से नमूना आईआईडी), प्रशिक्षण त्रुटि उपन्यास के उदाहरणों पर अपेक्षित त्रुटि में परिवर्तित होती है (बशर्ते कि आप वैश्विक इष्टतम को प्रशिक्षित कर सकते थे), लेकिन जब से हम प्रशिक्षण के अनंत उदाहरण नहीं हैं, प्रशिक्षण और सामान्यीकरण त्रुटि के बीच दिए गए अंतर को प्राप्त करने के लिए हमें कितने उदाहरणों की आवश्यकता है। सांख्यिकीय शिक्षण सिद्धांत इन सामान्यीकरण सीमा का अध्ययन करता है।
व्यावहारिक रूप से, एक बड़े आधुनिक तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए बड़ी संख्या में प्रशिक्षण उदाहरणों की आवश्यकता होती है (बिग डेटा, यदि आप buzzwords पसंद करते हैं), लेकिन व्यावहारिक रूप से अक्षम होने के लिए यह बड़ा नहीं है। लेकिन अगर आप सांख्यिकीय अधिगम सिद्धांत (उदाहरण के लिए गाओ और झोउ 2014 ) से सर्वश्रेष्ठ ज्ञात सीमाएं लागू करते हैं, तो आप आम तौर पर इन अपरिहार्य संख्याओं को प्राप्त करते हैं। इसलिए ये सीमाएँ तंग होने से बहुत दूर हैं, कम से कम व्यावहारिक समस्याओं के लिए।
इसका एक कारण यह हो सकता है कि ये सीमाएं डेटा जनरेट करने वाले वितरण के बारे में बहुत कम मानती हैं, इसलिए वे प्रतिकूल वातावरण के खिलाफ सबसे खराब स्थिति के प्रदर्शन को दर्शाते हैं, जबकि "प्राकृतिक" वातावरण अधिक "सीखने योग्य" होता है।
वितरण-निर्भर सामान्यीकरण सीमा लिखना संभव है, लेकिन हम यह नहीं जानते कि औपचारिक रूप से "प्राकृतिक" वातावरण पर वितरण को कैसे चिह्नित किया जाए। एल्गोरिथम सूचना सिद्धांत जैसे दृष्टिकोण अभी भी असंतोषजनक हैं।
इसलिए हम अभी भी नहीं जानते कि तंत्रिका नेटवर्क को बिना ओवरफिट किए प्रशिक्षित क्यों किया जा सकता है।

इसके अलावा, यह ध्यान दिया जाना चाहिए कि ये दो मुख्य मुद्दे अभी भी खराब तरीके से समझ से संबंधित हैं: सांख्यिकीय सीखने के सिद्धांत से सामान्यीकरण सीमा मानती है कि मॉडल को प्रशिक्षण सेट पर वैश्विक इष्टतम के लिए प्रशिक्षित किया गया है, लेकिन एक व्यावहारिक सेटिंग में एक भित्ति बिंदु तक अभिसरण तक एक तंत्रिका नेटवर्क को कभी भी प्रशिक्षित नहीं किया जा सकता है, क्योंकि ऐसा करने के लिए आमतौर पर ओवरफिटिंग का कारण होगा। इसके बजाय जब आप एक आयोजित आउट सत्यापन सेट पर त्रुटि (जो सामान्यीकरण त्रुटि के लिए एक प्रॉक्सी है) में सुधार करना बंद कर देता है। इसे "शुरुआती रोक" के रूप में जाना जाता है।
तो एक तरह से वैश्विक इष्टतम की सामान्यीकरण त्रुटि को रोकने के लिए यह सब सैद्धांतिक अनुसंधान काफी अप्रासंगिक हो सकता है: न केवल हम कुशलता से इसे पा सकते हैं, लेकिन अगर हम भी कर सकते हैं, तो हम नहीं चाहते हैं, क्योंकि यह खराब प्रदर्शन करेगा। कई "उप-इष्टतम" समाधानों की तुलना में उपन्यास उदाहरण।
यह मामला हो सकता है कि अनुकूलन कठोरता तंत्रिका नेटवर्क का दोष नहीं है, इसके विपरीत, शायद तंत्रिका नेटवर्क बिल्कुल ठीक काम कर सकते हैं क्योंकि वे अनुकूलन करना कठिन हैं।
ये सभी अवलोकन अनुभवजन्य हैं और कोई भी अच्छा सिद्धांत नहीं है जो उन्हें समझाए। कोई सिद्धांत भी नहीं है जो बताता है कि तंत्रिका नेटवर्क (छिपी हुई परत की चौड़ाई और गहराई, सीखने की दर, स्थापत्य विवरण, आदि) के हाइपरपैरमीटर कैसे सेट करें। अभ्यासकर्ता अपने अंतर्ज्ञान का उपयोग अनुभव और बहुत परीक्षण और त्रुटि के द्वारा करते हैं जो प्रभावी मूल्यों के साथ आते हैं, जबकि एक सिद्धांत हमें तंत्रिका नेटवर्क को और अधिक व्यवस्थित तरीके से डिजाइन करने की अनुमति दे सकता है।


11

@ आर्येह की टिप्पणी को जोड़ने के लिए, इस सवाल पर एक और ध्यान दें: सीखने के कई अन्य मॉडलों के लिए, हम परिकल्पना स्थान के "आकार" को जानते हैं। SVM इस का सबसे अच्छा उदाहरण हैं, कि आप जो खोज रहे हैं, वह (संभवतः उच्च-आयामी) हिल्बर्ट स्पेस में एक रैखिक विभाजक है।

सामान्य रूप से तंत्रिका नेटवर्क के लिए, हमारे पास ऐसा कोई स्पष्ट विवरण या यहां तक ​​कि एक सन्निकटन नहीं है। और इस तरह का विवरण हमारे लिए यह समझना महत्वपूर्ण है कि डेटा में एक तंत्रिका नेटवर्क वास्तव में क्या ढूंढ रहा है।


आप परिकल्पना स्थान के "आकार" के रूप में क्या कहेंगे? :) क्या हमारा सिद्धांत 2.1 (पेज 3) आपके कुछ सवालों के जवाब देता है: eccc.weizmann.ac.il/report/2017/098 ? : D
Anirbit

4

सूचना टोंटी का सिद्धांत गहरे नेरल नेटवर्क की सफलता की व्याख्या करने का प्रस्ताव किया गया है।

यहाँ क्वान्टा पत्रिका का एक उद्धरण है

पिछले महीने, बर्लिन में एक सम्मेलन वार्ता का एक यूट्यूब वीडियो, कृत्रिम-बुद्धि शोधकर्ताओं के बीच व्यापक रूप से साझा किया गया, एक संभावित उत्तर की पेशकश की। बात करते हुए, हिब्रू विश्वविद्यालय, जेरूसलम के एक कंप्यूटर वैज्ञानिक और न्यूरोसाइंटिस्ट, नफ़्तली तिश्बी ने एक नए सिद्धांत के समर्थन में साक्ष्य प्रस्तुत किया जिसमें बताया गया है कि गहन शिक्षण कैसे काम करता है। टीशबी का तर्क है कि गहरे तंत्रिका नेटवर्क "सूचना अड़चन" नामक एक प्रक्रिया के अनुसार सीखते हैं, जिसे उन्होंने और उनके दो सहयोगियों ने पहली बार 1999 में विशुद्ध रूप से सैद्धांतिक रूप से वर्णित किया था। विचार यह है कि एक नेटवर्क अतिरिक्त विवरणों के शोर इनपुट डेटा को छापता है जैसे कि निचोड़कर। एक अड़चन के माध्यम से जानकारी, केवल सामान्य अवधारणाओं के लिए सबसे अधिक प्रासंगिक सुविधाओं को बनाए रखना।

संदर्भ:

1- दीप विद्या और सूचना अड़चन सिद्धांत , नफ़्तेली तिस्बी और नोगा ज़स्लावस्की

2- डीप न्यूरल नेटवर्क्स के ब्लैक बॉक्स को सूचना के माध्यम से खोलना , रविद शवार्ट्ज-ज़िव और नैफ्टली टिस्बी

3- कांफ्रेंस टॉक वीडियो: इन्फोटेंशन थ्योरी ऑफ़ डीप लर्निंग बाय नफ़्तेली तिश्बी


1

मैं कहूंगा कि हमें अभी भी गहरे तंत्रिका नेटवर्क के प्रशिक्षण के लिए एक कुशल एल्गोरिथ्म की खोज करने की आवश्यकता है। हां, अभ्यास में अच्छी तरह से काम नहीं करता है, लेकिन एक बेहतर एल्गोरिथ्म ढूंढना है जो वैश्विक न्यूनतम में परिवर्तित करने की गारंटी देता है बहुत अच्छा होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.