नोट: मैं बैकप्रॉप का विशेषज्ञ नहीं हूं, लेकिन अब थोड़ा पढ़ा है, मुझे लगता है कि निम्नलिखित चेतावनी उपयुक्त है। तंत्रिका जाल पर कागज या किताबें पढ़ते समय , मानक योग / इंडेक्स नोटेशन , मैट्रिक्स नोटेशन , और मल्टी-इंडेक्स नोटेशन के मिश्रण का उपयोग करके डेरिवेटिव के लिए असामान्य नहीं है (टेंसर-टेंसर डेरिवेटिव के लिए अंतिम दो का एक हाइब्रिड शामिल करें) )। आमतौर पर आशय यह है कि इसे "संदर्भ से समझा जाना चाहिए", इसलिए आपको सावधान रहना होगा!
मैंने आपकी व्युत्पत्ति में कुछ विसंगतियों पर ध्यान दिया। मैं वास्तव में तंत्रिका नेटवर्क नहीं करता हूं, इसलिए निम्नलिखित गलत हो सकता है। हालांकि, यहाँ है कि मैं समस्या के बारे में कैसे जाऊँगा।
सबसे पहले, आपको में समन का ध्यान रखना होगा , और आप प्रत्येक शब्द को केवल एक भार पर निर्भर नहीं कर सकते। इसलिए घटक के संबंध में की ग्रेडिएंट लेते हुए , हमारे पास
EEkz
E=−∑jtjlogoj⟹∂E∂zk=−∑jtj∂logoj∂zk
फिर, व्यक्त रूप
हमारे पास
जहां है क्रोनकर डेल्टा । फिर सॉफ्टमैक्स-डिनोमिनेटर का ग्रेडिएंट
जो
या, लॉग विस्तार करके
ध्यान दें कि व्युत्पन्न सम्मान के साथ है। , एक मनमानाoj
oj=1Ωezj,Ω=∑iezi⟹logoj=zj−logΩ
∂logoj∂zk=δjk−1Ω∂Ω∂zk
δjk∂Ω∂zk=∑ieziδik=ezk
∂logoj∂zk=δjk−ok
∂oj∂zk=oj(δjk−ok)
zk घटक , जो पद देता है ( केवल जब )।
zδjk=1k=j
तो संबंध में का ग्रेडिएंट तब
जहां स्थिर है (किसी दिए गए वेक्टर के लिए)।Ez
∂E∂zk=∑jtj(ok−δjk)=ok(∑jtj)−tk⟹∂E∂zk=okτ−tk
τ=∑jtjt
यह आपके परिणाम से पहला अंतर दिखाता है: अब गुणा नहीं करता है । ध्यान दें कि विशिष्ट मामले के लिए जहां "वन-हॉट" है हमारे पास (जैसा कि आपके पहले लिंक में बताया गया है)।tkoktτ=1
एक दूसरी असंगति, अगर मैं सही ढंग से समझूं , तो यह है कि " " जो कि का इनपुट है लगता है कि सॉफ्टमैक्स से आउटपुट " " होने की संभावना नहीं है । मुझे लगता है कि यह अधिक समझ में आता है कि यह वास्तव में नेटवर्क आर्किटेक्चर में "आगे पीछे" है?ozo
इस वेक्टर कॉल करते हुए , हमारे पास तब
y
zk=∑iwikyi+bk⟹∂zk∂wpq=∑iyi∂wik∂wpq=∑iyiδipδkq=δkqyp
अंत में, भार-मैट्रिक्स संबंध में का ग्रेडिएंट प्राप्त करने के लिए , हम चेन नियम
अंतिम अभिव्यक्ति (एक मान -hot , यानी )
जहां निम्नतम स्तर पर इनपुट है (आपके उदाहरण का)।Ew
∂E∂wpq=∑k∂E∂zk∂zk∂wpq=∑k(okτ−tk)δkqyp=yp(oqτ−tq)
tτ=1∂E∂wij=yi(oj−tj)
y
इस शो के अपने परिणाम से एक दूसरे का अंतर तो: " " शायद नीचे के स्तर से होना चाहिए , जो मैं फोन ऊपर के स्तर के बजाय (जो )।oizyzo
उम्मीद है कि यह मदद करता है। क्या यह परिणाम अधिक सुसंगत लगता है?
अद्यतन: टिप्पणियों में ओपी की एक क्वेरी के जवाब में, यहां पहले चरण का विस्तार है। सबसे पहले, ध्यान दें कि वेक्टर श्रृंखला नियम में सारांश की आवश्यकता है ( यहां देखें )। दूसरा, सभी ढाल घटकों को प्राप्त करने के लिए निश्चित होने के लिए , आपको हमेशा आंशिक व्युत्पन्न के भाजक में घटक के लिए एक नया सबस्क्रिप्ट पत्र पेश करना चाहिए । तो पूर्ण श्रृंखला नियम के साथ ढाल को पूरी तरह से लिखने के लिए, हमारे पास
और
तो
∂E∂wpq=∑i∂E∂oi∂oi∂wpq
∂oi∂wpq=∑k∂oi∂zk∂zk∂wpq
∂E∂wpq=∑i[∂E∂oi(∑k∂oi∂zk∂zk∂wpq)]
अभ्यास में पूर्ण योग कम हो जाते हैं, क्योंकि आपको बहुत सारे शब्द हैं। हालांकि इसमें बहुत सारे "अतिरिक्त" योग और सदस्यता शामिल हैं, पूर्ण श्रृंखला नियम का उपयोग करके यह सुनिश्चित करेगा कि आपको हमेशा सही परिणाम मिलेगा।δab