तंत्रिका नेटवर्क में क्रॉस-एन्ट्रापी लागत फ़ंक्शन


11

मैं इस ट्यूटोरियल में पाया गया क्रॉस-एन्ट्रापी कॉस्ट फंक्शन देख रहा हूँ :

C=1nx[ylna+(1y)ln(1a)]

हम वास्तव में क्या समेट रहे हैं? यह निश्चित रूप से, है, से अधिक , लेकिन और साथ परिवर्तन नहीं करते । सब के सब के एक में आदानों हैं । भी समीकरण के ऊपर पैराग्राफ में परिभाषित किया गया है सभी 's और के योग के एक समारोह के रूप में । xyaxxaawx

इसके अलावा, को इस विशेष न्यूरॉन में इनपुट की संख्या के रूप में परिभाषित किया गया है, सही है? इसे "प्रशिक्षण डेटा की कुल वस्तुओं की संख्या" के रूप में जाना जाता है ।n


संपादित करें:

क्या मैं यह सोचने में सही हूं

C=1nx[ylna+(1y)ln(1a)]

पूरे नेटवर्क के लिए लागत समारोह होगा, जबकि

C=[ylna+(1y)ln(1a)]

व्यक्तिगत न्यूरॉन के लिए लागत होगी? क्या प्रत्येक आउटपुट न्यूरॉन के ऊपर योग नहीं होना चाहिए?

जवाबों:


14

यहां बताया गया है कि मैं क्रॉस-एन्ट्रापी नुकसान को कैसे व्यक्त करूंगा :

L(X,Y)=1ni=1ny(i)lna(x(i))+(1y(i))ln(1a(x(i)))

यहाँ, प्रशिक्षण डेटासेट में इनपुट उदाहरणों का सेट है, और उन इनपुट उदाहरणों के लिए लेबल का संगत सेट है। के तंत्रिका नेटवर्क दिए गए इनपुट आउटपुट का प्रतिनिधित्व करता है । Y= { y ( 1 ) ,, y ( n ) } a(x)xX={x(1),,x(n)}Y={y(1),,y(n)}a(x)x

से प्रत्येक या तो 0 या 1 है, और सक्रियण उत्पादन आम तौर पर एक का उपयोग करके खुला अंतराल (0, 1) के लिए प्रतिबंधित है रसद अवग्रह । उदाहरण के लिए, वन-लेयर नेटवर्क (जो लॉजिस्टिक रिग्रेशन के बराबर है) के लिए, एक्टिवेशन जहां एक है वजन मैट्रिक्स और एक पूर्वाग्रह वेक्टर है। कई परतों के लिए, आप सक्रियण फ़ंक्शन का विस्तार कुछ इस तरह कर सकते हैं जैसे जहां और पहली परत के लिए भार मैट्रिक्स और पूर्वाग्रह हैं, और a ( x ) a ( x ) = 1y(i)a(x) डब्ल्यूबी(एक्स)=1

a(x)=11+eWxb
Wb वीसीजेड(एक्स)
a(x)=11+eWz(x)bz(x)=11+eVxc
Vcz(x) नेटवर्क में छिपी परत की सक्रियता है।

मैंने उदाहरणों को निरूपित करने के लिए (i) सुपरस्क्रिप्ट का उपयोग किया है क्योंकि मुझे यह एंड्रयू एनजी के मशीन लर्निंग कोर्स में काफी प्रभावी लगता है; कभी-कभी लोग एक मैट्रिक्स में कॉलम या पंक्तियों के रूप में उदाहरण व्यक्त करते हैं, लेकिन विचार एक ही रहता है।


धन्यवाद! इसलिए यह हमारे सभी नमूनों में से पूरे नेटवर्क के लिए हमारी त्रुटि के लिए एक ही नंबर देगा। वापस प्रसार के लिए मुझे इस फ़ंक्शन के आंशिक व्युत्पन्न को अंतिम परत में भार मैट्रिक्स को खोजने की आवश्यकता है। मुझे यह कैसे करना है?
Adam12344

बैकपॉप करना कीड़े की एक पूरी अलग कैन है! आपके द्वारा लिंक किए गए पृष्ठ में कंप्यूटिंग डेरिवेटिव्स आदि का वर्णन है और स्टैकओवरफ्लो और इस साइट पर बैकप्रॉप के बारे में कई सवाल हैं। थोडा इधर-उधर देखने की कोशिश करें और फिर एक अलग प्रश्न विशेषकर बैकप्रॉप के बारे में पोस्ट करें।
lmjohns3

यह बैकप्रॉप समझने में आपके लिए उपयोगी हो सकता है, यह चार परतों वाले तंत्रिका नेटवर्क के साथ पीछे के माध्यम से जाता है, जिसमें गोर
YellowPillow

5

हम वास्तव में क्या समेट रहे हैं?

ट्यूटोरियल वास्तव में बहुत स्पष्ट है:

... प्रशिक्षण डेटा की मदों की कुल संख्या है, योग सभी प्रशिक्षण आदानों से अधिक है ...n

ट्यूटोरियल में दिए गए मूल एकल न्यूरॉन कॉस्ट फंक्शन (Eqn। 57) में तहत एक सबस्क्रिप्ट भी है जो इस पर संकेत देने वाला है। एकल न्यूरॉन मामले के लिए कुछ भी नहीं प्रशिक्षण उदाहरण के अलावा अधिक योग करने के लिए, के बाद से हम पहले से ही जब कंप्यूटिंग सभी इनपुट वजन से अधिक अभिव्यक्त बाकी है :xΣa

a=jwjxj.

बाद में एक ही ट्यूटोरियल में, नीलसन एक मल्टी-लेयर, मल्टी-न्यूरॉन नेटवर्क (Eqn। 63) के लिए लागत समारोह के लिए एक अभिव्यक्ति देता है।

C=1nxj[yjlnajL+(1yj)ln(1ajL)].

इस मामले में योग दोनों प्रशिक्षण उदाहरणों ( 's) और आउटपुट लेयर ( ' s) में अलग-अलग न्यूरॉन्स पर चलता है ।jxj


अंतर्दृष्टि के लिए धन्यवाद, एक प्रश्न: आपके द्वारा परिभाषित उत्तरार्द्ध स्पष्ट रूप से पार नहीं है?
टॉमसो गुरेरिन

उन्होंने अपने ट्यूटोरियल में यह भी कहा कि "y कभी-कभी 0 और 1 के बीच के मूल्यों को मध्यवर्ती ले सकता है" लेकिन उन्होंने जो फ़ंक्शन दिया वह सभी y पर है और कोई सक्रियण इनपुट नहीं था। हम सेंट फंक्शन में इंटरमीडिएट वैल्यू को कैसे लागू कर सकते हैं?
Feras

नीलसन के ट्यूटोरियल में, जो सिंगल-लेयर पर्सेप्ट्रॉन, एक = \ sigma (\ sum_ {j} w_j x_j) दिखाता है क्योंकि आपके पास अपनी आउटपुट लेयर के लिए सिग्मॉइड ऐक्टिवेशन फंक्शन है, न कि a = \ _ sumig {j} w_j x_j
ARAT
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.