कृत्रिम तंत्रिका नेटवर्क के पीछे सैद्धांतिक परिणाम


13

मैंने सिर्फ क्रेसरा के मशीन लर्निंग कोर्स पर कृत्रिम तंत्रिका नेटवर्क को कवर किया है और मैं उनके पीछे और अधिक सिद्धांत जानना चाहूंगा। मुझे इस बात की प्रेरणा मिली कि वे जीवविज्ञान की नकल कुछ हद तक असंतोषजनक करते हैं।

सतह पर यह प्रतीत होता है कि प्रत्येक स्तर पर हम कोवरेट्स को उनके रैखिक संयोजन से प्रतिस्थापित करते हैं। इसे बार-बार करने से हम गैर-रैखिक मॉडल फिटिंग के लिए अनुमति देते हैं। यह सवाल भी पैदा करता है: क्यों तंत्रिका नेटवर्क को कभी-कभी एक गैर-रेखीय मॉडल फिटिंग करने के लिए पसंद किया जाता है।

आम तौर पर, मैं यह जानना चाहूंगा कि आर्टिफिशियल न्यूरल नेटवर्क्स बायेसियन फ्रेमवर्क ऑफ़ इंफ़ेक्शन के भीतर कैसे फिट होते हैं, जो कि ईटी जेनेस की पुस्तक "प्रोबेबिलिटी थ्योरी: द लॉजिक ऑफ साइंस" में विस्तार से वर्णित है। या, बस इसे लगाने के लिए, कृत्रिम तंत्रिका नेटवर्क काम क्यों करते हैं जब वे काम करते हैं? और, निश्चित रूप से, यह तथ्य कि वे सफल भविष्यवाणियां करते हैं, का तात्पर्य है कि वे पूर्वोक्त ढांचे का पालन करते हैं।

जवाबों:


16

यहाँ ET Jaynes द्वारा " ए बैकवर्ड लुक टू द फ्यूचर " का एक उद्धरण है ।

नई Adhockeries

हाल के वर्षों में किसी भी जुड़े सैद्धांतिक सिद्धांतों के लिए अपील करने के बजाय सहज उपकरणों का आविष्कार करने की रूढ़िवादी आदत को इस तरह से नई समस्याओं के लिए बढ़ा दिया गया है जिससे यह पहली बार में प्रकट होता है कि विज्ञान के कई नए क्षेत्रों का निर्माण हुआ है। फिर भी इन सभी का संबंध अधूरी जानकारी से है; और हम मानते हैं कि हमारे पास उस संभाव्यता सिद्धांत को स्थापित करने का सिद्धांत है क्योंकि तर्क ऐसी सभी समस्याओं से निपटने का सामान्य साधन है। हम तीन उदाहरणों पर ध्यान देते हैं।

फजी सेट हैं - काफी स्पष्ट रूप से, बायेसियन इनवेंशन में प्रशिक्षित किसी को भी - बायसियन पूर्व संभावित संभावनाओं को कच्चे सन्निकटन। वे केवल इसलिए बनाए गए थे क्योंकि उनके चिकित्सकों ने प्रकृति में मौजूद "यादृच्छिकता" के संदर्भ में संभावना के बारे में सोचा था लेकिन कभी भी अच्छी तरह से परिभाषित नहीं किया गया था; और इसलिए निष्कर्ष निकाला कि संभावना सिद्धांत ऐसी समस्याओं पर लागू नहीं है। जैसे ही कोई संभावना को अपूर्ण जानकारी निर्दिष्ट करने के सामान्य तरीके के रूप में पहचानता है , फ़ज़ी सेट को पेश करने का कारण गायब हो जाता है।

इसी तरह, आर्टिफिशियल इंटेलिजेंस (एआई) में से अधिकांश अधूरी जानकारी से तर्क करने के लिए सहज उपकरणों का एक संग्रह है, जो रूढ़िवादी आंकड़ों के पुराने लोगों की तरह, बेयसियन तरीकों के लिए सन्निकटन हैं और समस्याओं के कुछ प्रतिबंधित वर्ग में प्रयोग करने योग्य हैं; लेकिन जब हम उस वर्ग के बाहर की समस्याओं के लिए उन्हें लागू करने का प्रयास करते हैं तो कौन से बेतुके निष्कर्ष निकलते हैं। फिर से, इसके चिकित्सकों को केवल इसलिए पकड़ा जाता है क्योंकि वे अपूर्ण जानकारी के बजाय एक भौतिक "यादृच्छिकता" का प्रतिनिधित्व करने की संभावना के बारे में सोचते रहते हैं। बेइज़ियन निष्कर्ष में उन सभी परिणामों को स्वचालित रूप से समाहित किया गया है - और बल्कि तुच्छ रूप से - बिना किसी सीमित समस्याओं के किसी सीमा तक।

महान नया विकास न्यूरल नेट्स है, जिसका अर्थ है कि अद्भुत नई संपत्ति के साथ एल्गोरिदम की एक प्रणाली, जो मानव मस्तिष्क की तरह है, अनुकूली ताकि वे पिछली त्रुटियों से सीख सकें और स्वचालित रूप से अपने आप को सही कर सकें (वाह! यह एक महान नया विचार है!) । वास्तव में, हम यह देखकर आश्चर्यचकित नहीं हैं कि तंत्रिका जाल वास्तव में कई अनुप्रयोगों में अत्यधिक उपयोगी हैं; फ़ज़ी सेट या एआई से अधिक। हालांकि, वर्तमान तंत्रिका जाल में दो व्यावहारिक कमियां हैं; (ए) वे वर्तमान इनपुट के साथ-साथ पिछले प्रशिक्षण की जानकारी से निर्धारित आउटपुट प्राप्त करते हैं। यह आउटपुट वास्तव में एक अनुमान हैहाथ पर सभी जानकारी के आधार पर उचित प्रतिक्रिया, लेकिन यह इसकी सटीकता का कोई संकेत नहीं देता है, और इसलिए यह हमें यह नहीं बताता है कि हम लक्ष्य के कितने करीब हैं (यानी, प्रशिक्षण की कितनी आवश्यकता है); (बी) जब नॉनलाइनियर प्रतिक्रिया के लिए कहा जाता है, तो एक आंतरिक रूप से संग्रहीत मानक "सिग्मॉइड" नॉनलाइनियर फ़ंक्शन के लिए अपील करता है, जो कि कुछ आयामों के साथ और कुछ हद तक, सच्चे नॉनएयर फ़ंक्शन के लिए रैखिक आयाम बनाए जा सकते हैं। (नोट: जोर मेरा)

लेकिन, क्या हमें वास्तव में यह इंगित करने की आवश्यकता है कि (1) कोई भी प्रक्रिया जो अनुकूली है, परिभाषा के अनुसार, अपूर्ण जानकारी को ध्यान में रखने का एक साधन है; (२) बेयस प्रमेय ठीक सभी अनुकूली प्रक्रियाओं की जननी है; नई जानकारी लेने के लिए ज्ञान के किसी भी राज्य को अपडेट करने का सामान्य नियम; (३) जब इन समस्याओं को बायेसियन शब्दों में तैयार किया जाता है, तो एक एकल गणना स्वचालित रूप से सबसे अच्छा अनुमान और इसकी सटीकता दोनों प्राप्त करती है; (४) यदि अशुद्धता के लिए कहा जाता है, तो बेयस प्रमेय स्वचालित रूप से समस्या के लिए बुलाए गए सटीक nonlinear फ़ंक्शन को उत्पन्न करता है, बजाय इसके कि किसी अन्य तदर्थ उपकरण द्वारा इसके निर्माण की कोशिश की जाए ।

दूसरे शब्दों में, हम तर्क देते हैं कि ये नए क्षेत्र नहीं हैं; केवल झूठी शुरुआत होती है। यदि कोई मानक बेयसियन प्रिस्क्रिप्शन द्वारा ऐसी सभी समस्याओं का निर्माण करता है, तो किसी को स्वचालित रूप से उनके सभी उपयोगी परिणाम बेहतर रूप में मिलते हैं। लोगों को यह समझने में जो मुश्किलें होती हैं, वे सभी एक ही विफलता के उदाहरण हैं जो अमूर्त गणित और वास्तविक दुनिया के बीच के संबंध को अवधारणा बनाते हैं। जैसे ही हम समझते हैं कि संभाव्यता वास्तविकता का वर्णन नहीं करती है - केवल वास्तविकता के बारे में हमारी जानकारी - उस जानकारी से तर्क की समस्याओं के इष्टतम समाधान के लिए द्वार व्यापक हैं।

कुछ टिप्पणियाँ:

  1. प्वाइंट (ए) बायेसियन न्यूरल नेटवर्क्स के घटनाक्रमों को नजरअंदाज करता है, जो अस्सी के दशक के अंत और नब्बे के दशक की शुरुआत में शुरू हुआ (लेकिन ध्यान दें कि जेन्स का पेपर 1993 में लिखा गया था)। इस पोस्ट पर एक नज़र डालें । इसके अलावा, यारिन गैल की खूबसूरत पीएचडी थीसिस को पढ़ने और ज़ुबिन घर्रामानी की इस शानदार प्रस्तुति को देखने पर विचार करें।

  2. मैं यह नहीं देखता कि बिंदु (b) एक "कमी" कैसे हो सकता है। वास्तव में, यह इस बात का सार है कि तंत्रिका जाल कार्यों के एक बड़े वर्ग को अनुमानित कर सकते हैं। ध्यान दें कि हाल ही में सफल आर्किटेक्चर आंतरिक परतों में सिग्मोइड से लेकर रेएलयू सक्रियता तक चले गए, "व्यापकता" पर "गहराई" के पक्ष में। ReLU जाल के लिए हाल ही में अनुमान प्रमेय साबित हुए हैं।


2
+1 कुछ भी यह जानने से अधिक संतोषजनक नहीं है कि कोई एक उत्तर के लिए सटीक सही संदर्भ कहां मिल सकता है।
साइकोरैक्स का कहना है कि

5
यह देखते हुए कि तदर्थ उपकरणों ने प्रदर्शित किया है कि वे कई स्थितियों में काम करते हैं, यह दिखाने के लिए उत्पादक (या नापसंद) होगा कि वे बस बेयसियन ढांचे में फिट होते हैं और इसलिए, विशेषण की गहरी समझ प्राप्त करते हैं, जो कि इतने व्यापक रूप से प्रदर्शित होते हैं दिन। यह उस तरह का काम है जिसमें मुझे दिलचस्पी है।
टॉम आर्टिओम फिरोडोरोव

1

सबसे पहले हम एक अरेखीय फ़ंक्शन को प्राप्त करने के लिए एक दूसरे में रैखिक कार्यों को ढेर नहीं करते हैं। एक स्पष्ट कारण है कि एनएन कभी भी इस तरह काम नहीं कर सकता है: एक दूसरे में रैखिक कार्यों को ढेर करने से फिर से एक रैखिक कार्य होगा।

क्या बनाता है NNs nonlinear सक्रियण फ़ंक्शन है जो रैखिक फ़ंक्शन के पीछे आता है! हालाँकि, प्रिंसिपल में आप सही हैं: हम बस एक-दूसरे में बहुत सारे लॉजिस्टिक रिग्रेशन (रैखिक नहीं हैं!) को ढेर करते हैं और ... टाडा: हमें इससे कुछ अच्छा मिलता है ... क्या वह उचित है? यह पता चलता है कि (सैद्धांतिक दृष्टिकोण से) यह वास्तव में उचित है। इससे भी बदतर: स्टोन-वेइरास्ट्रास के प्रसिद्ध और प्रसिद्ध प्रमेय का उपयोग करके हम केवल यह साबित करते हैं कि अंतिम नोड पर केवल एक छिपी हुई परत और कोई आउटपुट फ़ंक्शन के साथ तंत्रिका नेटवर्क किसी भी निरंतर कार्यों को अंजाम देने के लिए पर्याप्त है (और मुझे ध्यान में रखते हुए, निरंतर कार्य बदसूरत हो सकते हैं जानवर, "शैतान सीढ़ी" देखें: https://en.wikipedia.org/wiki/Cantor_bistionion[a,b]x↦=b+a1ϕ1(x)+...+alϕl(x)l

फिर हम गहरे NN का उपयोग क्यों करते हैं? कारण यह है कि ऊपर दिए गए SW- प्रमेय केवल इस बात की गारंटी देता है कि एक पर्याप्त बड़ी परत का आकार है ताकि हम अपने (उम्मीद के मुताबिक निरंतर) लक्ष्य फ़ंक्शन के करीब आ सकें। हालाँकि, आवश्यक परत आकार इतना बड़ा हो सकता है कि कोई भी कंप्यूटर उस आकार के भार मैट्रीक को कभी भी संभाल नहीं सकता है। अधिक छिपी परतों वाले एनएन 'सटीकता' और कम्प्यूटेबिलिटी के बीच एक अच्छा समझौता है। मैं किसी भी सैद्धांतिक परिणामों के बारे में नहीं जानता जो 'एन' की दिशा में इंगित करता है कि एनएन की अभिव्यक्ति कितनी बढ़ जाती है जब केवल एक छिपी हुई परत के आकार को बढ़ाने की तुलना में अधिक छिपी हुई परतों में डाल दिया जाता है लेकिन शायद वेब पर कुछ संसाधन हैं ...

क्या हम वास्तव में गहरे एनएन को समझ सकते हैं? उदाहरण के प्रश्न: एनएनई वास्तव में इस मामले को TRUE होने की भविष्यवाणी क्यों करता है जबकि यह इस तरह के दूसरे मामले की भविष्यवाणी करता है, इसी तरह का मामला FALSE होना चाहिए? वास्तव में यह इस ग्राहक को अन्य की तुलना में अधिक मूल्यवान क्यों बनाता है? मैं वास्तव में ऐसा नहीं मानता। यह उस मॉडल की जटिलता के साथ आता है जिसे आप इसे अच्छी तरह से समझा नहीं सकते हैं ... मैं केवल यह सुनता हूं कि यह अभी भी अनुसंधान का एक सक्रिय क्षेत्र है लेकिन मुझे कोई संसाधन नहीं पता है ...

सभी मॉडलों के बीच एनएन इतना अनूठा क्या है? इन दिनों NNs का उपयोग करने का असली कारण निम्नलिखित दो कारणों से है:

  1. वे एक प्राकृतिक 'स्ट्रीमिंग' संपत्ति के साथ आते हैं।
  2. हम उन्हें कई दिशाओं में अधिकतम करने के लिए दलाल कर सकते हैं।

TfTTTआदि) इस संपत्ति पर आधारित है। लोगों ने इस स्ट्रीमिंग प्रॉपर्टी को अन्य मॉडल्स (उदाहरण के लिए ग्रैडिएंट बूस्टिंग) में डालने की कोशिश की है, लेकिन यह स्वाभाविक रूप से नहीं आता है और एनएन सेटअप के रूप में कम्प्यूटेशनल रूप से सस्ता नहीं है।

2. 2. मेरा मतलब है कि लोगों ने सबसे अजीब चीजें करने के लिए एनएन को प्रशिक्षित किया है, लेकिन सिद्धांत रूप में वे सिर्फ एक ही ढांचे का उपयोग करते हैं: एक दूसरे में चिकनी कार्यों को ढेर करना और फिर कंप्यूटर (यानी PyTorch / Tensorflow) को कंप्यूटिंग की तरह गंदे गणित करना। नुकसान फ़ंक्शन का व्युत्पन्न वजन को कम करता है। एक उदाहरण यह पेपर होगाजहाँ लोगों ने RL दृष्टिकोण का उपयोग किया है और NN के आर्किटेक्चर को रासायनिक पदार्थों की जटिल भाषा सीखने के लिए यह भी बताया है कि इसे मेमोरी स्टैक (!) पर कैसे काम किया जाए। धीरे-धीरे बढ़ावा देने के साथ ऐसा करने की कोशिश करें ;-) यही कारण है कि उन्हें ऐसा करना चाहिए कि रसायनों की भाषा कम से कम 'सीखने में कठिन' है जैसे कि ब्रैकेट भाषा (यानी हर खुलने वाली ब्रैकेट शब्द में बाद में एक बंद होती है) ) क्योंकि अणुओं का वर्णन करने के लिए लोग जिस एसएमईईएस भाषा का उपयोग करते हैं उसमें प्रतीक '(' और ')' होते हैं। सैद्धांतिक कंप्यूटर विज्ञान (चॉम्स्की पदानुक्रम) से एक जानता है कि कोई इस भाषा को एक नियमित ऑटोमेटा के साथ वर्णित नहीं कर सकता है, लेकिन एक को ऑटोमेटा (यानी स्टैक मेमोरी के साथ एक ऑटोमेटा) की आवश्यकता होती है। यह उनके लिए प्रेरणा थी (मुझे लगता है) एनएन को यह अजीब बात सिखाने के लिए।


-1

"जब यह काम करता है तो यह काम क्यों करता है?"

n

तो, सभी मशीन लर्निंग समान रूप से तदर्थ हैं।

मशीन लर्निंग कीमिया के समान है: बहुत सारे गूढ़ व्यंजन हैं, आप एक को लागू करते हैं, और आपको सोना मिल सकता है। यदि नहीं, तो बस एक और नुस्खा लागू करें।

आपके द्वारा पूछे गए प्रश्न को कोई नहीं पूछता है, कम से कम उन प्रकाशनों में नहीं जिन्हें मैं जानता हूं।

इसके शीर्ष पर, सांख्यिकीय शिक्षण सिद्धांत है। सांख्यिकीय शिक्षण सिद्धांत मानता है कि प्रशिक्षण सेट का आकार अनंत तक जाता है। मेरे द्वारा ज्ञात अधिकांश परिणामों का रूप है: "कुछ शर्तों के तहत, यदि आपके पास एक पर्याप्त प्रशिक्षण सेट है, तो आप इस प्रक्रिया का उपयोग करके लगभग यथासंभव अच्छे परिणाम प्राप्त कर सकते हैं"। "बड़े पर्याप्त" क्या हैं, इसका अनुमान कल्पना से परे है।

बेशक, समस्या यह है, प्रशिक्षण सेट आकार कहीं भी नहीं जा रहा है, अकेले अनंत को दें।

इसलिए, मुझे लगता है, यह एक अच्छा समय है (1) यह सवाल पूछें, (2) गणितीय उपकरण विकसित करने के लिए सभी संभावित मशीन लर्निंग एल्गोरिदम के बारे में सवाल का जवाब दें और (3) इस सवाल का जवाब दें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.