यहां बताया गया है कि मैं क्रॉस-एन्ट्रापी नुकसान को कैसे व्यक्त करूंगा :
एल (एक्स), वाई) = - 1nΣमैं = १ny( i )lna ( x)( i )) + ( 1 - वाई( i )) एल एन( 1 - ए ( एक्स)( i )) )
यहाँ, प्रशिक्षण डेटासेट में इनपुट उदाहरणों का सेट है, और उन इनपुट उदाहरणों के लिए लेबल का संगत सेट है। के तंत्रिका नेटवर्क दिए गए इनपुट आउटपुट का प्रतिनिधित्व करता है । Y= { y ( 1 ) ,…, y ( n ) } a(x)xएक्स= { एक्स( 1 ), ... , एक्स( एन )}Y= { य( 1 ), ... , y( एन )}a ( x )एक्स
से प्रत्येक या तो 0 या 1 है, और सक्रियण उत्पादन आम तौर पर एक का उपयोग करके खुला अंतराल (0, 1) के लिए प्रतिबंधित है रसद अवग्रह । उदाहरण के लिए, वन-लेयर नेटवर्क (जो लॉजिस्टिक रिग्रेशन के बराबर है) के लिए, एक्टिवेशन जहां एक है वजन मैट्रिक्स और एक पूर्वाग्रह वेक्टर है। कई परतों के लिए, आप सक्रियण फ़ंक्शन का विस्तार कुछ इस तरह कर सकते हैं जैसे जहां और पहली परत के लिए भार मैट्रिक्स और पूर्वाग्रह हैं, और a ( x ) a ( x ) = 1y( i )a ( x ) डब्ल्यूबीए(एक्स)=1
a ( x ) = 11 + ई- डब्ल्यूएक्स - बी
डब्ल्यूख वीसीजेड(एक्स)a ( x ) = 11 + ई- डब्ल्यूz( x ) - बीz( x ) = 11 + ई- वीएक्स - सी
Vcz(x) नेटवर्क में छिपी परत की सक्रियता है।
मैंने उदाहरणों को निरूपित करने के लिए (i) सुपरस्क्रिप्ट का उपयोग किया है क्योंकि मुझे यह एंड्रयू एनजी के मशीन लर्निंग कोर्स में काफी प्रभावी लगता है; कभी-कभी लोग एक मैट्रिक्स में कॉलम या पंक्तियों के रूप में उदाहरण व्यक्त करते हैं, लेकिन विचार एक ही रहता है।