मेरा सुझाव है कि आप पहले एक पारंपरिक बायेसियन न्यूरल नेटवर्क में अंतर्निहित संभावना मॉडल का एक अच्छा समझ लें। निम्नलिखित में, कुछ शब्द बोल्डफेस के साथ लिखे जाएंगे । कृपया, अधिक विस्तृत जानकारी प्राप्त करने के लिए उन शर्तों को देखने का प्रयास करें। यह सिर्फ एक बुनियादी अवलोकन है। मुझे उम्मीद है यह मदद करेगा।
आइए फीडफॉरवर्ड न्यूरल नेटवर्क में प्रतिगमन के मामले पर विचार करें और कुछ संकेतन स्थापित करें।
Let इनपुट परत पर भविष्यवक्ताओं के मूल्यों को निरूपित करें । के मूल्यों इकाइयों में भीतरी परतों से दर्शाया जाने दिया जाएगा , के लिए । अंत में, हमारे पास आउटपुट लेयर ।( z ( ℓ ) 1 , ... , जेड ( ℓ ) एन ℓ ) ℓ=1,...,एल-1( y 1 ,…, y k )(x1,…,xp)=:(z(0)1,…,z(0)N0)(z(ℓ)1,…,z(ℓ)Nℓ)ℓ=1,…,L−1 (y1,…,yk)=:(z(L)1,…,z(L)NL)
वजन और पूर्वाग्रह इकाई की परत पर द्वारा सूचित किया जाता हो जाएगा और , क्रमशः, के लिए , , और ।ℓ डब्ल्यू ( ℓ ) मैं जे बी ( ℓ ) मैं ℓ = 1 , ... , एल मैं = 1 ... , एन ℓ j = 1 , ... , एन ℓ - 1iℓw(ℓ)ijb(ℓ)iℓ=1,…,Li=1…,Nℓj=1,…,Nℓ−1
चलो हो सक्रियण समारोह इकाई के लिए परत पर , के लिए और ।g(ℓ)i:RNℓ−1→Riℓℓ=1,…,Li=1…,Nℓ
आमतौर पर उपयोग किए जाने वाले सक्रियण कार्य लॉजिस्टिक , ReLU (उर्फ पॉजिटिव पार्ट ), और तन हैं ।
अब, , परत संक्रमण कार्यों को परिभाषित करें
जिसमें
के लिए ।G ( ℓ )ℓ=1,…,L
G(ℓ):RNℓ−1→RNℓ:(z(ℓ−1)1,…,z(ℓ−1)Nℓ−1)↦(z(ℓ)1,…,z(ℓ)Nℓ),
z(ℓ)i=g(ℓ)i(∑j=1Nℓ−1w(ℓ)ijz(ℓ−1)j+b(ℓ)i),
i=1,…,Nℓ
द्वारा सभी इकाइयों में सभी इकाइयों के वजन और गैसों के सेट को नकारना , जो कि
हमारा तंत्रिका नेटवर्क है फ़ंक्शन का परिवार जिसे परत संक्रमण फ़ंक्शन की संरचना द्वारा प्राप्त किया गया:
θ
θ={w(ℓ)ij,b(ℓ)i:ℓ=1,…,L;i=1…,Nℓ;j=1,…,Nℓ−1},
Gθ:Rp→RkGθ=G(L)∘G(L−1)∘⋯∘G(1).
उपरोक्त विवरण में कोई संभावना शामिल नहीं है। मूल तंत्रिका नेटवर्क व्यवसाय का उद्देश्य फ़ंक्शन फिटिंग है ।
डीप लर्निंग में "गहरा" विचार के तहत तंत्रिका नेटवर्क में कई आंतरिक परतों के अस्तित्व के लिए खड़ा है।
एक प्रशिक्षण सेट , हम उद्देश्य फ़ंक्शन
ओवर । परीक्षण सेट में भविष्यवाणियों के कुछ वेक्टर के लिए , पूर्वानुमानित प्रतिक्रिया बस , जिसमें समाधान है कम से कम समस्या के लिए मिला। इस न्यूनीकरण के लिए सुनहरा मानक है backpropagation द्वारा कार्यान्वित TensorFlow बनता है आधुनिक में उपलब्ध सुविधाओं का उपयोग कर पुस्तकालय GPU{(xi,yi)∈Rp×Rk:i=1,…,n}
∑i=1n∥yi−Gθ(xi)∥2,
θx∗Gθ^(x∗)θ^की (आपकी परियोजनाओं के लिए,
केरस इंटरफ़ेस देखें)। इसके अलावा, अब इन कार्यों (
TPU 's) को
एनक्रिप्ट करने वाला हार्डवेयर उपलब्ध है । चूँकि तंत्रिका नेटवर्क सामान्य रूप से अधिक परिमाण में होता है, नियमितीकरण के कुछ प्रकार से बचने के लिए नुस्खा में जोड़ा जाता है, उदाहरण के लिए, उद्देश्य समारोह में जुर्माना या प्रशिक्षण के दौरान
ड्रॉपआउट का उपयोग करने के लिए एक
रिज जैसे योग ।
ज्योफ्री हिंटन (उर्फ डीप लर्निंग गॉडफादर) और सहयोगियों ने इनमें से कई चीजों का आविष्कार किया। डीप लर्निंग की सफलता की कहानियां हर जगह हैं।
80 के दशक के उत्तरार्ध में और 90 के दशक की शुरुआत में एक गाऊसी संभावना के प्रस्ताव के साथ
और एक सरल (संभवतः सरल) गाऊसी पूर्व, नेटवर्क में सभी भार और पूर्वाग्रहों की एक प्राथमिक स्वतंत्रता को :
Lx,y(θ,σ2)∝σ−nexp(−12σ2∑i=1n∥yi−Gθ(xi)∥2),
π(θ,σ2)∝exp(−12σ20∑ℓ=1L∑i=1Nℓ((b(ℓ)i)2+∑j=1Nℓ−1(w(ℓ)ij)2))×π(σ2).
इसलिए, वज़न और पूर्वाग्रहों के लिए सीमांत शून्य माध्य और सामान्य विचरण साथ सामान्य वितरण हैं । इस मूल संयुक्त मॉडल को बहुत अधिक शामिल किया जा सकता है, जिससे व्यापार को मुश्किल बना दिया जाता है।σ20
बायेसियन डीप लर्निंग को संबंधित पश्च वितरण से नमूना लेने के कठिन कार्य का सामना करना पड़ता है। यह पूरा होने के बाद, भविष्यवाणियों को स्वाभाविक रूप से पीछे की भविष्यवाणी वितरण के साथ बनाया जाता है , और इन भविष्यवाणियों में शामिल अनिश्चितताओं को पूरी तरह से निर्धारित किया जाता है। बायेसियन डीप लर्निंग में पवित्र कब्र एक कुशल और स्केलेबल समाधान का निर्माण है। इस खोज में कई कम्प्यूटेशनल विधियों का उपयोग किया गया है: मेट्रोपोलिस-हेस्टिंग्स और गिब्स नमूनाकरण , हैमिल्टन मोंटे कार्लो , और, हाल ही में, भिन्नता संबंधी आविष्कार ।
कुछ सफलता की कहानियों के लिए एनआईपीएस सम्मेलन वीडियो देखें: http://bayesiandeeplearning.org/