Bayesian डीप लर्निंग क्या है?


13

बायेसियन डीप लर्निंग क्या है और यह पारंपरिक बायेसियन सांख्यिकी और पारंपरिक डीप लर्निंग से कैसे संबंधित है?

मुख्य अवधारणाएं और गणित क्या शामिल हैं? क्या मैं कह सकता हूं कि यह केवल गैर पैरामीट्रिक बायेसियन आँकड़े हैं? इसके वर्तमान मुख्य विकास और अनुप्रयोगों के साथ इसके सेमिनल क्या हैं?

पुनश्च: Bayesian डीप लर्निंग पर बहुत ध्यान दिया जा रहा है, NIPS कार्यशाला देखें।

जवाबों:


10

आपके NIPS कार्यशाला लिंक से हटकर, Yee Whye Teh ने NIPS पर Bayesian Deep Learning (वीडियो: https://www.youtube.com/watch?v=LVBvJsTr3rg , स्लाइड) http: //csml.stats पर एक मुख्य भाषण दिया । ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/)। मुझे लगता है कि कुछ बिंदु पर, तेह ने बायेसियन फ्रेमवर्क को गहराई से सीखने (जैसे कि एक तंत्रिका नेटवर्क के वजन पर एक पोस्टीरियर सीखना), और गहरी बायेसियन सीखने को गहरे सीखने के लिए विचारों को लागू करने के रूप में गहराई से सीखने के रूप में बायेसियन को गहराई से बताया। बायेसियन फ्रेमवर्क (गहरी गाऊसी प्रक्रियाओं या गहरे घातीय परिवारों की तरह)। पाठ्यक्रम के विचार हैं जो दो अवधारणाओं के बीच की रेखा को अलग करते हैं, जैसे कि वैचारिक ऑटोकेनोडर्स। जब ज्यादातर लोग बेयसियन को गहरी सीख कहते हैं, तो वे आम तौर पर दोनों में से किसी एक का मतलब होते हैं, और यह कार्यशाला में आपके द्वारा जुड़े कार्यशाला में स्वीकृत पत्रों (पिछले वर्ष की कार्यशाला के साथ) में परिलक्षित होता है। जबकि विचार 90 के दशक में तंत्रिका नेटवर्क के बायेसियन सीखने पर नील के काम पर वापस जाते हैंhttp://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), और उसके बाद के वर्षों में काम किया गया है, शायद अधिक महत्वपूर्ण हाल के पत्रों में से एक होगा। मूल परिवर्तनशील ऑटोकैन्डर पेपर ( https://arxiv.org/pdf/1312.6114.pdf )।


10

मेरा सुझाव है कि आप पहले एक पारंपरिक बायेसियन न्यूरल नेटवर्क में अंतर्निहित संभावना मॉडल का एक अच्छा समझ लें। निम्नलिखित में, कुछ शब्द बोल्डफेस के साथ लिखे जाएंगे । कृपया, अधिक विस्तृत जानकारी प्राप्त करने के लिए उन शर्तों को देखने का प्रयास करें। यह सिर्फ एक बुनियादी अवलोकन है। मुझे उम्मीद है यह मदद करेगा।

आइए फीडफॉरवर्ड न्यूरल नेटवर्क में प्रतिगमन के मामले पर विचार करें और कुछ संकेतन स्थापित करें।

Let इनपुट परत पर भविष्यवक्ताओं के मूल्यों को निरूपित करें । के मूल्यों इकाइयों में भीतरी परतों से दर्शाया जाने दिया जाएगा , के लिए । अंत में, हमारे पास आउटपुट लेयर( z ( ) 1 , ... , जेड ( ) एन )=1,...,एल-1( y 1 ,, y k )(x1,,xp)=:(z1(0),,zN0(0))(z1(),,zN())=1,,L1 (y1,,yk)=:(z1(L),,zNL(L))

वजन और पूर्वाग्रह इकाई की परत पर द्वारा सूचित किया जाता हो जाएगा और , क्रमशः, के लिए , , और ।डब्ल्यू ( ) मैं जे बी ( ) मैं= 1 , ... , एल मैं = 1 ... , एन j = 1 , ... , एन - 1iwij()bi()=1,,Li=1,Nj=1,,N1

चलो हो सक्रियण समारोह इकाई के लिए परत पर , के लिए और ।gi():RN1Ri=1,,Li=1,N

आमतौर पर उपयोग किए जाने वाले सक्रियण कार्य लॉजिस्टिक , ReLU (उर्फ पॉजिटिव पार्ट ), और तन हैं

अब, , परत संक्रमण कार्यों को परिभाषित करें जिसमें के लिए ।G ( )=1,,L

G():RN1RN:(z1(1),,zN1(1))(z1(),,zN()),
zi()=gi()(j=1N1wij()zj(1)+bi()),
i=1,,N

द्वारा सभी इकाइयों में सभी इकाइयों के वजन और गैसों के सेट को नकारना , जो कि हमारा तंत्रिका नेटवर्क है फ़ंक्शन का परिवार जिसे परत संक्रमण फ़ंक्शन की संरचना द्वारा प्राप्त किया गया: θ

θ={wij(),bi():=1,,L;i=1,N;j=1,,N1},
Gθ:RpRk
Gθ=G(L)G(L1)G(1).

उपरोक्त विवरण में कोई संभावना शामिल नहीं है। मूल तंत्रिका नेटवर्क व्यवसाय का उद्देश्य फ़ंक्शन फिटिंग है

डीप लर्निंग में "गहरा" विचार के तहत तंत्रिका नेटवर्क में कई आंतरिक परतों के अस्तित्व के लिए खड़ा है।

एक प्रशिक्षण सेट , हम उद्देश्य फ़ंक्शन ओवर । परीक्षण सेट में भविष्यवाणियों के कुछ वेक्टर के लिए , पूर्वानुमानित प्रतिक्रिया बस , जिसमें समाधान है कम से कम समस्या के लिए मिला। इस न्यूनीकरण के लिए सुनहरा मानक है backpropagation द्वारा कार्यान्वित TensorFlow बनता है आधुनिक में उपलब्ध सुविधाओं का उपयोग कर पुस्तकालय GPU{(xi,yi)Rp×Rk:i=1,,n}

i=1nyiGθ(xi)2,
θxGθ^(x)θ^की (आपकी परियोजनाओं के लिए, केरस इंटरफ़ेस देखें)। इसके अलावा, अब इन कार्यों ( TPU 's) को एनक्रिप्ट करने वाला हार्डवेयर उपलब्ध है । चूँकि तंत्रिका नेटवर्क सामान्य रूप से अधिक परिमाण में होता है, नियमितीकरण के कुछ प्रकार से बचने के लिए नुस्खा में जोड़ा जाता है, उदाहरण के लिए, उद्देश्य समारोह में जुर्माना या प्रशिक्षण के दौरान ड्रॉपआउट का उपयोग करने के लिए एक रिज जैसे योग । ज्योफ्री हिंटन (उर्फ डीप लर्निंग गॉडफादर) और सहयोगियों ने इनमें से कई चीजों का आविष्कार किया। डीप लर्निंग की सफलता की कहानियां हर जगह हैं।

80 के दशक के उत्तरार्ध में और 90 के दशक की शुरुआत में एक गाऊसी संभावना के प्रस्ताव के साथ और एक सरल (संभवतः सरल) गाऊसी पूर्व, नेटवर्क में सभी भार और पूर्वाग्रहों की एक प्राथमिक स्वतंत्रता को :

Lx,y(θ,σ2)σnexp(12σ2i=1nyiGθ(xi)2),
π(θ,σ2)exp(12σ02=1Li=1N((bi())2+j=1N1(wij())2))×π(σ2).

इसलिए, वज़न और पूर्वाग्रहों के लिए सीमांत शून्य माध्य और सामान्य विचरण साथ सामान्य वितरण हैं । इस मूल संयुक्त मॉडल को बहुत अधिक शामिल किया जा सकता है, जिससे व्यापार को मुश्किल बना दिया जाता है।σ02

बायेसियन डीप लर्निंग को संबंधित पश्च वितरण से नमूना लेने के कठिन कार्य का सामना करना पड़ता है। यह पूरा होने के बाद, भविष्यवाणियों को स्वाभाविक रूप से पीछे की भविष्यवाणी वितरण के साथ बनाया जाता है , और इन भविष्यवाणियों में शामिल अनिश्चितताओं को पूरी तरह से निर्धारित किया जाता है। बायेसियन डीप लर्निंग में पवित्र कब्र एक कुशल और स्केलेबल समाधान का निर्माण है। इस खोज में कई कम्प्यूटेशनल विधियों का उपयोग किया गया है: मेट्रोपोलिस-हेस्टिंग्स और गिब्स नमूनाकरण , हैमिल्टन मोंटे कार्लो , और, हाल ही में, भिन्नता संबंधी आविष्कार

कुछ सफलता की कहानियों के लिए एनआईपीएस सम्मेलन वीडियो देखें: http://bayesiandeeplearning.org/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.