पार एन्ट्रापी सूत्र दो वितरण, में लेता , सच वितरण, और , अनुमानित वितरण, अधिक असतत चर परिभाषित और द्वारा दिया जाता हैp(x)q(x)x
H(p,q)=−∑∀xp(x)log(q(x))
एक तंत्रिका नेटवर्क के लिए, गणना निम्नलिखित में से स्वतंत्र है:
किस तरह की परत का इस्तेमाल किया गया था।
किस तरह की सक्रियता का उपयोग किया गया था - हालांकि कई सक्रियण गणना के साथ संगत नहीं होंगे क्योंकि उनके आउटपुट संभाव्यता के रूप में व्याख्या करने योग्य नहीं हैं (यानी, उनके आउटपुट नकारात्मक हैं, 1 से अधिक है, या 1 के लिए योग नहीं है)। सॉफ्टमैक्स का उपयोग अक्सर मल्टीक्लास वर्गीकरण के लिए किया जाता है क्योंकि यह एक अच्छी तरह से व्यवहार की संभावना वितरण फ़ंक्शन की गारंटी देता है।
एक तंत्रिका नेटवर्क के लिए, आप आमतौर पर समीकरण को एक ऐसे रूप में देखेंगे जहां जमीनी सच्चाई सदिश और (या अंतिम परत आउटपुट से लिया गया कुछ अन्य मान) अनुमान। एक एकल उदाहरण के लिए, यह इस तरह दिखेगा:yyy^
L=−y⋅log(y^)
जहाँ वेक्टर डॉट उत्पाद है।⋅
आपका उदाहरण जमीनी सच्चाई पहले मूल्य को सभी संभावना देता है, और दूसरे मान शून्य हैं, इसलिए हम उन्हें अनदेखा कर सकते हैं, और बस अपने अनुमानों से मिलान शब्द का उपयोग कर सकते हैंyyy^
एल = - ( 1 × एल ओ जी)( 0.1 ) + 0 × लॉग( 0.5 ) + है । । । )
एल = - एल ओ जी( 0.1 ) ≈ 2.303
टिप्पणियों से एक महत्वपूर्ण बिंदु
इसका मतलब है, हानि कोई फर्क नहीं पड़ता अगर भविष्यवाणियों हैं ही होगा या ?[ 0.1 , 0.5 , 0.1 , 0.1 , 0.2 ][ 0.1 , 0.6 , 0.1 , 0.1 , 0.1 ]
हां, यह मल्टीस्केल्स लॉगलॉस की एक प्रमुख विशेषता है, यह केवल सही कक्षाओं की संभावनाओं को पुरस्कृत / दंडित करता है। मूल्य इस बात से स्वतंत्र है कि शेष संभावनाएं गलत वर्गों के बीच कैसे विभाजित होती हैं।
आप अक्सर इस समीकरण को लागत फ़ंक्शन के रूप में सभी उदाहरणों पर औसतन देखेंगे । यह हमेशा कड़ाई से विवरणों का पालन नहीं करता है, लेकिन आमतौर पर एक हानि फ़ंक्शन निम्न स्तर होता है और बताता है कि कैसे एक एकल उदाहरण या घटक एक त्रुटि मान निर्धारित करता है, जबकि एक लागत फ़ंक्शन उच्च स्तर है और बताता है कि अनुकूलन के लिए एक पूर्ण प्रणाली का मूल्यांकन कैसे किया जाता है। आकार डेटा सेट के लिए मल्टीस्केल्स लॉग लॉस पर आधारित एक लागत समारोह इस तरह दिखाई दे सकता है:एन
जम्मू= - १एन( ∑मैं = १एनyमैं⋅ लॉग( y^मैं) )
कई कार्यान्वयनों को आपके जमीनी सच मानों को एक-गर्म एन्कोडेड (एकल सच्चे वर्ग के साथ) की आवश्यकता होगी, क्योंकि यह कुछ अतिरिक्त अनुकूलन की अनुमति देता है। हालांकि, सिद्धांत रूप में क्रॉस एन्ट्रॉपी लॉस की गणना की जा सकती है - और अनुकूलित - जब यह मामला नहीं है।