सॉफ्टमैक्स / क्रॉस एंट्रोपी के साथ बैकप्रोपेगेशन

40

मैं समझने की कोशिश कर रहा हूं कि सॉफ्टपैक्स / क्रॉस-एन्ट्रापी आउटपुट लेयर के लिए बैकप्रॉपैगैशन कैसे काम करता है।

क्रॉस एन्ट्रापी एरर फंक्शन है

E (t, o) = - \sum_{j} t_{j} \log o_{j}

$E(t,o)=-\sum_j t_j \log o_j$

साथ और न्यूरॉन में लक्ष्य और आउटपुट के रूप में , क्रमशः। आउटपुट लेयर में प्रत्येक न्यूरॉन के ऊपर योग होता है। स्वयं सॉफ्टमैक्स फ़ंक्शन का परिणाम है: $t$ $o$ $j$ $o_j$

o_{j} = s o f t m a x (z_{j}) = \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$o_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}}$

पुन आउटपुट लेयर में प्रत्येक न्यूरॉन के ऊपर योग होता है और न्यूरॉन का इनपुट होता है : $z_j$ $j$

z_{j} = \sum_{i} w_{i j} o_{i} + b

$z_j=\sum_i w_{ij}o_i+b$

यही कारण है कि पिछली परत में सभी न्यूरॉन्स पर उनके इसी उत्पादन और वजन साथ न्यूरॉन प्लस एक पूर्वाग्रह । $o_i$ $w_{ij}$ $j$ $b$

अब, एक भार को अद्यतन करने के लिए जो आउटपुट लेयर में एक न्यूरॉन को एक न्यूरॉन के साथ पिछली परत में जोड़ता है , मुझे श्रृंखला नियम का उपयोग करके त्रुटि फ़ंक्शन के आंशिक व्युत्पन्न की गणना करने की आवश्यकता है: $w_{ij}$ $j$ $i$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

न्यूरॉन के इनपुट के रूप में साथ । $z_j$ $j$

अंतिम शब्द काफी सरल है। चूंकि और बीच केवल एक भार है , इसलिए व्युत्पन्न है: $i$ $j$

\frac{\partial z_{j}}{\partial w_{i j}} = o_{i}

$\frac{\partial z_j} {\partial w_{ij}}=o_i$

पहला शब्द आउटपुट संबंध में त्रुटि फ़ंक्शन की व्युत्पत्ति है : $o_j$

\frac{\partial E}{\partial o_{j}} = \frac{- t_{j}}{o_{j}}

$\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j}$

मध्य अवधि सॉफ्टमैक्स फ़ंक्शन की व्युत्पत्ति है, जिसके इनपुट संबंध में कठिन है: $z_j$

\frac{\partial o_{j}}{\partial z_{j}} = \frac{\partial}{\partial z_{j}} \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} \frac{e^{z_j}}{\sum_j e^{z_j}}$

मान लें कि हमारे पास वर्गों के अनुरूप तीन आउटपुट न्यूरॉन्स हैं फिर है: $a,b,c$ $o_b = softmax(b)$

o_{b} = \frac{e^{z_{b}}}{\sum e^{z}} = \frac{e^{z_{b}}}{e^{z_{a}} + e^{z_{b}} + e^{z_{c}}}

$o_b=\frac{e^{z_b}}{\sum e^{z}}=\frac{e^{z_b}}{e^{z_a}+e^{z_b}+e^{z_c}}$

और भागफल नियम का उपयोग करके इसकी व्युत्पत्ति:

\frac{\partial o_{b}}{\partial z_{b}} = \frac{e^{z_{b}} * \sum e^{z} - (e^{z_{b}})^{2}}{(\sum_{j} e^{z})^{2}} = \frac{e^{z_{b}}}{\sum e^{z}} - \frac{(e^{z_{b}})^{2}}{(\sum e^{z})^{2}}

$\frac{\partial o_b} {\partial z_{b}}=\frac{e^{z_b}*\sum e^z - (e^{z_b})^2}{(\sum_j e^{z})^2}=\frac{e^{z_b}}{\sum e^z}-\frac{(e^{z_b})^2}{(\sum e^z)^2}$

= s o f t m a x (b) - s o f t m a x^{2} (b) = o_{b} - o_{b}^{2} = o_{b} (1 - o_{b})

$=softmax(b)-softmax^2(b)=o_b-o_b^2=o_b(1-o_b)$ backpropagation के लिए मध्य अवधि के लिए इसका अर्थ है:

\frac{\partial o_{j}}{\partial z_{j}} = o_{j} (1 - o_{j})

$\frac{\partial o_j} {\partial z_{j}}=o_j(1-o_j)$

यह सब मुझे एक साथ मिल रहा है

\frac{\partial E}{\partial w_{i j}} = \frac{- t_{j}}{o_{j}} * o_{j} (1 - o_{j}) * o_{i} = - t_{j} (1 - o_{j}) * o_{i}

$\frac{\partial E} {\partial w_{ij}}= \frac{-t_j}{o_j}*o_j(1-o_j)*o_i=-t_j(1-o_j)*o_i$

जिसका अर्थ है, यदि इस वर्ग के लिए लक्ष्य , तो मैं इसके लिए भार को अद्यतन नहीं करूंगा। यह सही नहीं लगता। $t_j=0$

इस पर जांच करने पर मैंने पाया कि लोगों को सॉफ्टमैक्स व्युत्पत्ति के लिए दो वेरिएंट मिलते हैं, एक जहाँ और दूसरा , जैसे यहाँ या यहाँ । $i=j$ $i\ne j$

लेकिन मुझे इससे कोई मतलब नहीं है। इसके अलावा, मुझे यकीन नहीं है कि यह मेरी त्रुटि का कारण है, यही वजह है कि मैं अपनी सभी गणना पोस्ट कर रहा हूं। मुझे उम्मीद है कि कोई मुझे स्पष्ट कर सकता है कि मैं कुछ याद कर रहा हूं या गलत हो रहा हूं।

— micha
स्रोत

आपके द्वारा दिए गए लिंक व्युत्पन्न के सापेक्ष व्युत्पन्न की गणना कर रहे हैं, जबकि आप वजन के सापेक्ष व्युत्पन्न की गणना कर रहे हैं।

— जेनकर

35

नोट: मैं बैकप्रॉप का विशेषज्ञ नहीं हूं, लेकिन अब थोड़ा पढ़ा है, मुझे लगता है कि निम्नलिखित चेतावनी उपयुक्त है। तंत्रिका जाल पर कागज या किताबें पढ़ते समय , मानक योग / इंडेक्स नोटेशन , मैट्रिक्स नोटेशन , और मल्टी-इंडेक्स नोटेशन के मिश्रण का उपयोग करके डेरिवेटिव के लिए असामान्य नहीं है (टेंसर-टेंसर डेरिवेटिव के लिए अंतिम दो का एक हाइब्रिड शामिल करें) )। आमतौर पर आशय यह है कि इसे "संदर्भ से समझा जाना चाहिए", इसलिए आपको सावधान रहना होगा!

मैंने आपकी व्युत्पत्ति में कुछ विसंगतियों पर ध्यान दिया। मैं वास्तव में तंत्रिका नेटवर्क नहीं करता हूं, इसलिए निम्नलिखित गलत हो सकता है। हालांकि, यहाँ है कि मैं समस्या के बारे में कैसे जाऊँगा।

सबसे पहले, आपको में समन का ध्यान रखना होगा , और आप प्रत्येक शब्द को केवल एक भार पर निर्भर नहीं कर सकते। इसलिए घटक के संबंध में की ग्रेडिएंट लेते हुए , हमारे पास $E$ $E$ $k$ $z$

E = - \sum_{j} t_{j} \log o_{j} ⟹ \frac{\partial E}{\partial z_{k}} = - \sum_{j} t_{j} \frac{\partial \log o_{j}}{\partial z_{k}}

$E=-\sum_jt_j\log o_j\implies\frac{\partial E}{\partial z_k}=-\sum_jt_j\frac{\partial \log o_j}{\partial z_k}$

फिर, व्यक्त रूप हमारे पास जहां है क्रोनकर डेल्टा । फिर सॉफ्टमैक्स-डिनोमिनेटर का ग्रेडिएंट जो या, लॉग विस्तार करके ध्यान दें कि व्युत्पन्न सम्मान के साथ है। , एक मनमाना $o_j$

o_{j} = \frac{1}{Ω} e^{z_{j}}, Ω = \sum_{i} e^{z_{i}} ⟹ \log o_{j} = z_{j} - \log Ω

$o_j=\tfrac{1}{\Omega}e^{z_j} \,,\, \Omega=\sum_ie^{z_i} \implies \log o_j=z_j-\log\Omega$

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - \frac{1}{Ω} \frac{\partial Ω}{\partial z_{k}}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-\frac{1}{\Omega}\frac{\partial\Omega}{\partial z_k}$

δ_{j k}

$\delta_{jk}$

\frac{\partial Ω}{\partial z_{k}} = \sum_{i} e^{z_{i}} δ_{i k} = e^{z_{k}}

$\frac{\partial\Omega}{\partial z_k}=\sum_ie^{z_i}\delta_{ik}=e^{z_k}$

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - o_{k}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-o_k$

\frac{\partial o_{j}}{\partial z_{k}} = o_{j} (δ_{j k} - o_{k})

$\frac{\partial o_j}{\partial z_k}=o_j(\delta_{jk}-o_k)$

z_{k}

$z_k$ घटक , जो पद देता है ( केवल जब )।

z

$z$

δ_{j k}

$\delta_{jk}$

= 1

$=1$

k = j

$k=j$

तो संबंध में का ग्रेडिएंट तब जहां स्थिर है (किसी दिए गए वेक्टर के लिए)। $E$ $z$

\frac{\partial E}{\partial z_{k}} = \sum_{j} t_{j} (o_{k} - δ_{j k}) = o_{k} (\sum_{j} t_{j}) - t_{k} ⟹ \frac{\partial E}{\partial z_{k}} = o_{k} τ - t_{k}

$\frac{\partial E}{\partial z_k}=\sum_jt_j(o_k-\delta_{jk})=o_k\left(\sum_jt_j\right)-t_k \implies \frac{\partial E}{\partial z_k}=o_k\tau-t_k$

τ = \sum_{j} t_{j}

$\tau=\sum_jt_j$

t

$t$

यह आपके परिणाम से पहला अंतर दिखाता है: अब गुणा नहीं करता है । ध्यान दें कि विशिष्ट मामले के लिए जहां "वन-हॉट" है हमारे पास (जैसा कि आपके पहले लिंक में बताया गया है)। $t_k$ $o_k$ $t$ $\tau=1$

एक दूसरी असंगति, अगर मैं सही ढंग से समझूं , तो यह है कि " " जो कि का इनपुट है लगता है कि सॉफ्टमैक्स से आउटपुट " " होने की संभावना नहीं है । मुझे लगता है कि यह अधिक समझ में आता है कि यह वास्तव में नेटवर्क आर्किटेक्चर में "आगे पीछे" है? $o$ $z$ $o$

इस वेक्टर कॉल करते हुए , हमारे पास तब $y$

z_{k} = \sum_{i} w_{i k} y_{i} + b_{k} ⟹ \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{i} y_{i} \frac{\partial w_{i k}}{\partial w_{p q}} = \sum_{i} y_{i} δ_{i p} δ_{k q} = δ_{k q} y_{p}

$z_k=\sum_iw_{ik}y_i+b_k \implies \frac{\partial z_k}{\partial w_{pq}}=\sum_iy_i\frac{\partial w_{ik}}{\partial w_{pq}}=\sum_iy_i\delta_{ip}\delta_{kq}=\delta_{kq}y_p$

अंत में, भार-मैट्रिक्स संबंध में का ग्रेडिएंट प्राप्त करने के लिए , हम चेन नियम अंतिम अभिव्यक्ति (एक मान -hot , यानी ) जहां निम्नतम स्तर पर इनपुट है (आपके उदाहरण का)। $E$ $w$

\frac{\partial E}{\partial w_{p q}} = \sum_{k} \frac{\partial E}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{k} (o_{k} τ - t_{k}) δ_{k q} y_{p} = y_{p} (o_{q} τ - t_{q})

$\frac{\partial E}{\partial w_{pq}}=\sum_k\frac{\partial E}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}=\sum_k(o_k\tau-t_k)\delta_{kq}y_p=y_p(o_q\tau-t_q)$

t

$t$

τ = 1

$\tau=1$

\frac{\partial E}{\partial w_{i j}} = y_{i} (o_{j} - t_{j})

$\frac{\partial E}{\partial w_{ij}}=y_i(o_j-t_j)$

y

$y$

इस शो के अपने परिणाम से एक दूसरे का अंतर तो: " " शायद नीचे के स्तर से होना चाहिए , जो मैं फोन ऊपर के स्तर के बजाय (जो )। $o_i$ $z$ $y$ $z$ $o$

उम्मीद है कि यह मदद करता है। क्या यह परिणाम अधिक सुसंगत लगता है?

अद्यतन: टिप्पणियों में ओपी की एक क्वेरी के जवाब में, यहां पहले चरण का विस्तार है। सबसे पहले, ध्यान दें कि वेक्टर श्रृंखला नियम में सारांश की आवश्यकता है ( यहां देखें )। दूसरा, सभी ढाल घटकों को प्राप्त करने के लिए निश्चित होने के लिए , आपको हमेशा आंशिक व्युत्पन्न के भाजक में घटक के लिए एक नया सबस्क्रिप्ट पत्र पेश करना चाहिए । तो पूर्ण श्रृंखला नियम के साथ ढाल को पूरी तरह से लिखने के लिए, हमारे पास और तो
$\frac{\partial E}{\partial w_{p q}} = \sum_{i} \frac{\partial E}{\partial o_{i}} \frac{\partial o_{i}}{\partial w_{p q}}$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \frac{\partial E}{\partial o_i}\frac{\partial o_i}{\partial w_{pq}}$ $\frac{\partial o_{i}}{\partial w_{p q}} = \sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}}$ $\frac{\partial o_i}{\partial w_{pq}}=\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}$ $\frac{\partial E}{\partial w_{p q}} = \sum_{i} [\frac{\partial E}{\partial o_{i}} (\sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}})]$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \left[ \frac{\partial E}{\partial o_i}\left(\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}\right) \right]$ अभ्यास में पूर्ण योग कम हो जाते हैं, क्योंकि आपको बहुत सारे शब्द हैं। हालांकि इसमें बहुत सारे "अतिरिक्त" योग और सदस्यता शामिल हैं, पूर्ण श्रृंखला नियम का उपयोग करके यह सुनिश्चित करेगा कि आपको हमेशा सही परिणाम मिलेगा। $\delta_{ab}$

— GeoMatt22
स्रोत

मुझे यकीन नहीं है कि "बैकप्रॉप / ऑटोडिफ" समुदाय इन समस्याओं को कैसे करता है, लेकिन मुझे लगता है कि जब भी मैं शॉर्टकट लेने की कोशिश करता हूं, तो मैं गलतियां करने के लिए उत्तरदायी हूं। इसलिए मैं अंत में यहाँ कर रहा हूँ, पूर्ण सबस्क्रिप्टिंग के साथ योगों के संदर्भ में सब कुछ लिख रहा हूं, और हमेशा हर व्युत्पन्न के लिए नए सदस्यता पेश कर रहा हूं। (मेरे उत्तर के समान यहां ... मुझे आशा है कि मैं कम से कम अंत में सही परिणाम दे रहा हूं!)

— जियोमैट

मुझे व्यक्तिगत रूप से लगता है कि आप नीचे सब कुछ लिख रहे हैं, इसका पालन करना बहुत आसान है। परिणाम मुझे सही लगते हैं।

— जेनकर

यद्यपि मैं अभी भी आपके प्रत्येक चरण को पूरी तरह से समझने की कोशिश कर रहा हूं, मुझे कुछ मूल्यवान अंतर्दृष्टि मिलीं जिससे मुझे समग्र तस्वीर के साथ मदद मिली। मुझे लगता है कि मुझे व्युत्पन्न और रकम के विषय में और अधिक पढ़ने की आवश्यकता है। लेकिन ई में समन का हिसाब लेने के लिए आपकी सलाह लेते हुए, मैं इसके साथ आया:

— micha

दो आउटपुट के लिए और with क्रॉस एन्ट्रापी त्रुटि है तब व्युत्पन्न जो आपके परिणाम के अनुरूप है ... यह ध्यान में रखते हुए कि त्रुटि राशि से पहले आपके पास ऋण चिह्न नहीं था

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

Ω = e^{z_{j_{1}}} + e^{z_{j_{2}}}

$\Omega=e^{z_{j_1}}+e^{z_{j_2}}$

E = - (t_{1} l o g o_{j_{1}} + t_{2} l o g o_{j_{2}}) = - (t_{1} (z_{j_{1}} - l o g (Ω)) + t_{2} (z_{j_{2}} - l o g (Ω)))

$E=-(t_1 log o_{j_1}+t_2 log o_{j_2})=-(t_1(z_{j_1}-log(\Omega))+t_2(z_{j_2}-log(\Omega)))$

\frac{\partial E}{\partial (z_{j_{1}}} = - (t_{1} - t_{1} \frac{e^{z_{j_{1}}}}{Ω} - t_{2} \frac{e^{z_{j_{2}}}}{Ω}) = - t_{1} + o_{j_{1}} (t_{1} + t_{2})

$\frac{\partial E}{\partial (z_{j_1}}=-(t_1-t_1 \frac{e^{z_{j_1}}}{\Omega}-t_2 \frac{e^{z_{j_2}}}{\Omega})=-t_1+o_{j_1}(t_1+t_2)$

— micha

लेकिन एक और प्रश्न मेरे पास है: इसके बजाय जो आम तौर पर आपके होता है, आपने गणना की: रूप में को रद्द करने के लिए । इस तरह से सही परिणाम क्यों है?

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\partial o_{j}

$\partial o_j$

— माइक

12

जबकि @ GeoMatt22 का उत्तर सही है, मैंने व्यक्तिगत रूप से इसे एक खिलौना उदाहरण के लिए समस्या को कम करने और चित्र बनाने के लिए बहुत उपयोगी पाया:

मैंने तब ऑपरेशन को परिभाषित किया था जो प्रत्येक नोड कंप्यूटिंग कर रहा था, जो कि "नेटवर्क" के इनपुट के रूप में और का इलाज कर रहा है ( एक हॉट-वेक्टर है जो डेटा बिंदु के वर्ग लेबल का प्रतिनिधित्व करता है): $h$ $w$ $\mathbf{t}$

L = - t_{1} \log o_{1} - t_{2} \log o_{2}

$L=-t_1\log o_1 -t_2\log o_2$

o_{1} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})}

$o_1 = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}$

o_{2} = \frac{\exp (y_{2})}{\exp (y_{1}) + \exp (y_{2})}

$o_2 = \frac{\exp(y_2)}{\exp(y_1) + \exp(y_2)}$

y_{1} = w_{11} h_{1} + w_{21} h_{2} + w_{31} h_{3}

$y_1 = w_{11}h_1 + w_{21}h_2 + w_{31}h_3$

y_{2} = w_{12} h_{1} + w_{22} h_{2} + w_{32} h_{3}

$y_2 = w_{12}h_1 + w_{22}h_2 + w_{32}h_3$

मान कि मैं संबंध में नुकसान की व्युत्पत्ति की गणना करना चाहता हूं । मैं सिर्फ वजन मैं में दिलचस्पी रखता हूँ करने के लिए नुकसान से पथ वापस ट्रेस करने के लिए मेरी तस्वीर का उपयोग कर सकते (हटाया के दूसरे स्तंभ 'स्पष्टता के लिए ओं): $w_{21}$ $w$

फिर, मैं सिर्फ वांछित डेरिवेटिव की गणना कर सकता हूं। ध्यान दें कि माध्यम से दो रास्ते हैं जो , इसलिए मुझे उनमें से प्रत्येक के माध्यम से जाने वाले डेरिवेटिव को योग करने की आवश्यकता है। $y_1$ $w_{21}$

\frac{\partial L}{\partial o_{1}} = - \frac{t_{1}}{o_{1}}

$\frac{\partial L}{\partial o_1} = -\frac{t_1}{o_1}$

\frac{\partial L}{\partial o_{2}} = - \frac{t_{2}}{o_{2}}

$\frac{\partial L}{\partial o_2} = -\frac{t_2}{o_2}$

\frac{\partial o_{1}}{\partial y_{1}} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})} - {(\frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})})}^{2} = o_{1} (1 - o_{1})

$\frac{\partial o_1}{\partial y_1} = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)} - \left(\frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}\right)^2 = o_1(1 - o_1)$

\frac{\partial o_{2}}{\partial y_{1}} = \frac{- \exp (y_{2}) \exp (y_{1})}{(\exp (y_{1}) + \exp (y_{2}))^{2}} = - o_{2} o_{1}

$\frac{\partial o_2}{\partial y_1} = \frac{-\exp(y_2)\exp(y_1)}{(\exp(y_1) + \exp(y_2))^2} = -o_2o_1$

\frac{\partial y_{1}}{\partial w_{21}} = h_{2}

$\frac{\partial y_1}{\partial w_{21}} = h_2$

अंत में, श्रृंखला नियम को एक साथ

\begin{aligned} \frac{\partial L}{\partial w_{21}} & = \frac{\partial L}{\partial o_{1}} \frac{\partial o_{1}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} + \frac{\partial L}{\partial o_{2}} \frac{\partial o_{2}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} \\ = \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2} \\ = h_{2} (t_{2} o_{1} - t_{1} + t_{1} o_{1}) \\ = h_{2} (o_{1} (t_{1} + t_{2}) - t_{1}) \\ = h_{2} (o_{1} - t_{1}) \end{aligned}

$\begin{align} \frac{\partial L}{\partial w_{21}} &= \frac{\partial L}{\partial o_1}\frac{\partial o_1}{\partial y_1}\frac{\partial y_1}{\partial w_{21}} + \frac{\partial L}{\partial o_2}\frac{\partial o_2}{\partial y_1}\frac{\partial y_1}{\partial w_{21}}\\ &= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\ &= h_2(t_2 o_1 - t_1 + t_1 o_1)\\ &= h_2(o_1(t_1 + t_2) - t_1)\\ &= h_2(o_1 - t_1) \end{align}$

ध्यान दें कि अंतिम चरण में, क्योंकि वेक्टर एक गर्म वेक्टर है। $t_1 + t_2 = 1$ $\mathbf{t}$

— विवेक सुब्रमण्यन
स्रोत

यह वही है जो अंत में मेरे लिए यह मंजूरी दे दी! बहुत बढ़िया और सुरुचिपूर्ण विवरण !!!!

— संतोषगुप्त

2

मुझे खुशी है कि आप दोनों को मेरी पोस्ट पढ़ने से मज़ा आया और फायदा हुआ! मेरे लिए इसे लिखना और उसकी व्याख्या करना भी सहायक था।

— विवेक सुब्रमण्यन

@VivekSubramanian यह होना चाहिए ?

= \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2}

$= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\$

— koryakinp

आप सही कह रहे हैं - यह एक टाइपो था! मैं बदलाव लाऊंगा।

— विवेक सुब्रमण्यन

जो बात मुझे समझ में नहीं आ रही है, वह यह है कि आप कुछ न्यूरॉन्स को लॉगिट्स (अनकल्ड स्कोर) भी असाइन करते हैं। (ओ सॉफ्टमैक्स किए गए लॉगिट्स (भविष्यवाणियां) हैं और वाई आपके मामले में लॉगिट्स हैं)। हालांकि, यह सामान्य रूप से मामला नहीं है, है ना? पर देखो इस तस्वीर तो कैसे यह कैसे आप y1 के संबंध में O2 के आंशिक व्युत्पन्न पा सकते हैं इस मामले में संभव है (o_out1 भविष्यवाणी और o_in1 logits है)?

— एआरएटी

6

के स्थान में मैं एक पत्र जिसका अपरकेस अपने लोअरकेस से चाक्षुष रूप से भिन्न है चाहता हूँ। इसलिए मुझे स्थानापन्न । इसके अलावा, पिछली परत से को नामित करने के लिए चर का उपयोग करें । $\{o_i\},\,$ $\{y_i\}$ $\{p_i\}$ $\{o_i\}$

चलो विकर्ण मैट्रिक्स जिसका विकर्ण वेक्टर के बराबर होती है हो , यानी इस नए मैट्रिक्स चर का उपयोग करना Frobenius इनर उत्पाद हम की ढाल गणना कर सकते हैं wrt । $Y$ $y$

Y = D i a g (y)

$Y={\rm Diag}(y)$

E

$E$

W

$W$

\begin{aligned} z & = W p + b & d z = d W p \\ y & = s o f t m a x (z) & d y = (Y - y y^{T}) d z \\ E & = - t : \log (y) & d E = - t : Y^{- 1} d y \\ d E & = - t : Y^{- 1} (Y - y y^{T}) d z \\ = - t : (I - 1 y^{T}) d z \\ = - t : (I - 1 y^{T}) d W p \\ = (y 1^{T} - I) t p^{T} : d W \\ = ((1^{T} t) y p^{T} - t p^{T}) : d W \\ \frac{\partial E}{\partial W} & = (1^{T} t) y p^{T} - t p^{T} \end{aligned}

$\eqalign{ z &= Wp+b &dz= dWp \cr y &= {\rm softmax}(z) &dy = (Y-yy^T)\,dz \cr E &= -t:\log(y) &dE = -t:Y^{-1}dy \cr\cr dE &= -t:Y^{-1}(Y-yy^T)\,dz \cr &= -t:(I-1y^T)\,dz \cr &= -t:(I-1y^T)\,dW\,p \cr &= (y1^T-I)tp^T:dW \cr &= ((1^Tt)yp^T - tp^T):dW \cr\cr \frac{\partial E}{\partial W} &= (1^Tt)yp^T - tp^T \cr }$

— खुलकर
स्रोत

6

यहां मैं सबसे साफ और अच्छी तरह से लिखे गए नोटों में से एक है जो मुझे वेब पर आया था, जो "क्रॉस एन्ट्रापी लॉस फंक्शन के साथ बैकप्रोपेगैग एल्गोरिथ्म में डेरिवेटिव की गणना" के बारे में बताता है ।

— yottabytt
स्रोत

दिए गए pdf में समीकरण 22 समीकरण 23 कैसे बने? जैसे कि समन (k! = I) को नकारात्मक संकेत कैसे मिला। क्या इसे सकारात्मक संकेत नहीं मिलना चाहिए? जैसे Summation(Fn)(For All K) = Fn(k=i) + Summation(Fn)(k!=i)मेरी समझ के अनुसार हो रहा होना चाहिए।

— faizan

1

यहाँ एक लिंक दिया गया है जो सॉफ्टमैक्स और उसके व्युत्पन्न की व्याख्या करता है।

यह i = j और i = = j का उपयोग करने का कारण बताता है।

— एस मुहम्मद एच। मुस्तफा
स्रोत

यदि भविष्य में लिंक टूट जाता है, तो न्यूनतम, स्टैंड-अलोन उत्तर देने की सिफारिश की जाती है। अन्यथा, यह अब भविष्य में अन्य उपयोगकर्ताओं की मदद नहीं कर सकता है।

— ल्यूकोनाचो

0

अन्य उत्तरों ने व्युत्पन्न की गणना करने का सही तरीका प्रदान किया है, लेकिन वे इस बात को इंगित नहीं करते हैं कि आप कहाँ गलत हो गए हैं। वास्तव में, आपके अंतिम समीकरण में हमेशा 1 होता है, क्योंकि आपने मान लिया है कि आपके आउटपुट में लक्ष्य 1 का नोड लेता है; अन्य नोड्स के में प्रायिकता फ़ंक्शन के विभिन्न रूप होते हैं, इस प्रकार व्युत्पन्न के विभिन्न रूप होते हैं, इसलिए अब आपको यह समझना चाहिए कि अन्य लोगों ने और अलग-अलग व्यवहार क्यों किया है । $t_j$ $o_j$ $o_j$ $i=j$ $i\neq j$

— kuixiong
स्रोत