क्रॉस एन्ट्रापी लॉस फ़ंक्शन की विभिन्न परिभाषाएं


12

मैंने न्यूरल नेटवर्क्स के साथ तंत्रिका नेटवर्क के बारे में सीखना शुरू कर दिया है। डॉट कॉम ट्यूटोरियल। तीसरे अध्याय में विशेष रूप से क्रॉस एन्ट्रापी फ़ंक्शन के बारे में एक अनुभाग है, और क्रॉस एन्ट्रापी नुकसान को परिभाषित करता है:

C=1nxj(yjlnajL+(1yj)ln(1ajL))

हालाँकि, टेन्सरफ़्लो परिचय को पढ़ते हुए , क्रॉस एन्ट्रॉपी लॉस को इस प्रकार परिभाषित किया गया है:

C=1nxj(yjlnajL) (ऊपर दिए गए समान प्रतीकों का उपयोग करते समय)

फिर चारों ओर खोजने के लिए कि मैं क्या कर रहा था नोटों का एक और सेट मिला: ( https://cs231n.github.io/linear-classify/#softmax-classifier ) जो क्रॉस एंट्रेस लॉस की पूरी तरह से अलग परिभाषा का उपयोग करता है, इसके बावजूद एक न्यूरल नेटवर्क के बजाय सॉफ्टमैक्स क्लासिफायर के लिए समय।

क्या कोई मुझे समझा सकता है कि यहाँ क्या चल रहा है? क्यों विसंगतियां हैं btw। क्या लोग क्रॉस-एन्ट्रापी नुकसान को परिभाषित करते हैं? वहाँ सिर्फ कुछ व्यापक सिद्धांत है?


जवाबों:


18

ये तीन परिभाषाएं अनिवार्य रूप से समान हैं।

1) Tensorflow परिचय ,

C=1nxj(yjlnaj).

2) द्विआधारी वर्गीकरण , यह और बाधाओं के कारण और , इसे रूप में फिर से लिखा जा सकता है जो तीसरे अध्याय के समान हैj=2

C=1nx(y1lna1+y2lna2)
jaj=1jyj=1
C=1nx(y1lna1+(1y1)ln(1a1))

3) इसके अलावा, यदि एक एकल-गर्म वेक्टर है (जो कि आमतौर पर वर्गीकरण लेबल के लिए होता है) एकमात्र गैर-शून्य तत्व है, तो संबंधित नमूने का क्रॉस एन्ट्रापी नुकसान yyk

Cx=j(yjlnaj)=(0+0+...+yklnak)=lnak.

में cs231 नोट , एक नमूना के पार एन्ट्रापी नुकसान के रूप में softmax सामान्य के साथ एक साथ दिया जाता है

Cx=ln(ak)=ln(efkjefj).

0

में तीसरे अध्याय , समीकरण (63) पार एन्ट्रापी कई sigmoids के लिए आवेदन किया है (जो 1 का योग नहीं हो सकता है), जबकि में है परिचय Tensoflow क्रोस एंट्रोपी एक softmax उत्पादन स्तर पर की जाती है।

जैसा कि डब्लू ने समझाया है कि दोनों सूत्र अनिवार्य रूप से दो वर्गों के लिए समान हैं लेकिन ऐसा नहीं है जब दो से अधिक वर्गों पर विचार किया जाता है। सॉफ्टमैक्स एक्सक्लूसिव क्लासेस के साथ मल्टीक्लास के लिए समझ में आता है ( यानी जब प्रति सैंपल केवल एक लेबल होता है, जो लेबल्स के एक-हॉट एन्कोडिंग की अनुमति देता है) जबकि (मल्टीपल) सिग्मोइड का इस्तेमाल मल्टीलेबल प्रॉब्लम का वर्णन करने के लिए किया जा सकता है (यानी सैंपल के साथ जो पॉजिटिव है) कई वर्गों के लिए)।

इस अन्य नॉट्लू उत्तर को भी देखें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.