सिंगल लेयर न्यूरल नेटवर्क की ग्रेडिंग ग्रेडिएंट अपने इनपुट्स को नियंत्रित करती है, चेन नियम में ऑपरेटर क्या है?

9

समस्या यह है:

एक एकल छिपे हुए परत तंत्रिका नेटवर्क के लिए इनपुट परत के संबंध में ढाल को इनपुट के लिए सिग्मॉइड का उपयोग करके -> छिपा हुआ, छिपा के लिए सॉफ्टमैक्स -> आउटपुट, एक क्रॉस एन्ट्रॉपी लॉस के साथ।

मैं श्रृंखला नियम का उपयोग करके अधिकांश व्युत्पत्ति प्राप्त कर सकता हूं, लेकिन मैं इस बात पर अनिश्चित हूं कि वास्तव में उन्हें एक साथ "चेन" कैसे किया जाए।

कुछ अंकन को परिभाषित करें

$r = xW_1+b_1$

$h = \sigma\left( r \right)$ , sigmoid फ़ंक्शन है $\sigma$

$\theta = hW_2+b_2$ ,

$\hat{y} = S \left( \theta \right)$ , सॉफ्टमैक्स फ़ंक्शन है $S$

$J\left(\hat{y}\right) = \sum_i y \log\hat{y}_i$ , असली लेबल वन-हॉट वेक्टर $y$

फिर चेन नियम से,

\frac{\partial J}{\partial x} = \frac{\partial J}{\partial θ} \cdot \frac{\partial θ}{\partial h} \cdot \frac{\partial h}{\partial r} \cdot \frac{\partial r}{\partial x}

$\frac{\partial J}{\partial \boldsymbol{x}} = \frac{\partial J}{\partial \boldsymbol{\theta}} \cdot \frac{\partial \boldsymbol{\theta}}{\partial \boldsymbol{h}} \cdot \frac{\partial \boldsymbol{h}}{\partial \boldsymbol{r}} \cdot \frac{\partial \boldsymbol{r}}{\partial \boldsymbol{x}}$

व्यक्तिगत ग्रेडिएंट हैं:

\frac{\partial J}{\partial θ} = (\hat{y} - y)

$\frac{\partial J}{\partial \boldsymbol{\theta}} = \left( \hat{\boldsymbol{y}} - \boldsymbol{y} \right)$

\frac{\partial θ}{\partial h} = \frac{\partial}{\partial h} [h W_{2} + b_{2}] = W_{2}^{T}

$\frac{\partial \boldsymbol{\theta}}{\partial \boldsymbol{h}} = \frac{\partial}{\partial \boldsymbol{h}} \left[ \boldsymbol{h}W_2 + \boldsymbol{b_2}\right] = W_2^T$

\frac{\partial h}{\partial r} = h \cdot (1 - h)

$\frac{\partial \boldsymbol{h}}{\partial \boldsymbol{r}} = h \cdot \left(1-h\right)$

\frac{\partial r}{\partial x} = \frac{\partial}{\partial x} [x W_{1} + b_{1}] = W_{1}^{T}

$\frac{\partial \boldsymbol{r}}{\partial \boldsymbol{x}} = \frac{\partial}{\partial \boldsymbol{x}} \left[ \boldsymbol{x}W_1 + \boldsymbol{b_1}\right] = W_1^T$

अब हमें एक साथ परिभाषाओं की श्रृंखला बनानी होगी। एकल-चर में यह आसान है, हम बस सब कुछ एक साथ गुणा करते हैं। वैक्टर में, मुझे यकीन नहीं है कि तत्व-वार गुणन या मैट्रिक्स गुणन का उपयोग करना है या नहीं।

\frac{\partial J}{\partial x} = (\hat{y} - y) * W_{2}^{T} \cdot [h \cdot (1 - h)] * W_{1}^{T}

$\frac{\partial J}{\partial \boldsymbol{x}} = \left( \hat{\boldsymbol{y}} - \boldsymbol{y} \right) * W_2^T \cdot \left[\boldsymbol{h} \cdot \left(1-\boldsymbol{h}\right)\right] * W_1^T$

कहाँ वैक्टर के तत्व-वार गुणन है, और एक मैट्रिक्स गुणा है। ऑपरेशनों का यह संयोजन एकमात्र तरीका है जिससे मैं एक साथ एक स्ट्रिंग प्राप्त कर सकता हूं ताकि एक आयाम सदिश प्राप्त हो, जिसे मैं जानता हूं कि होना चाहिए। $\cdot$ $*$ $1 \cdot D_x$ $\frac{\partial J}{\partial \boldsymbol{x}}$

मेरा प्रश्न है: मेरे लिए यह निर्धारित तरीका है कि किस ऑपरेटर का उपयोग करना है? मैं और बीच तत्व-वार की आवश्यकता से विशेष रूप से भ्रमित हूं । $W_2^T$ $h$

धन्यवाद!

neural-networks gradient

— amatsukawa
स्रोत

मुझे लगता है कि इनपुट के लिए ढाल ढाल खोजने का एहसास अक्सर नहीं होता है। मेरा मानना है कि यह शब्द एम्बेडिंग कंप्यूटिंग के लिए एक लीड है, जहां आपके पास "इनपुट" शब्द वैक्टर को अनुकूलित करने का विकल्प है।

— अमात्सुका

कैसे दीदी आपने dJ / dTheta

— raaj

4

मेरा मानना है कि इस प्रश्न का उत्तर देने की कुंजी यह है कि तत्व-वार गुणन वास्तव में शॉर्टहैंड है और इसलिए जब आप समीकरणों को प्राप्त करते हैं तो आप वास्तव में इसका उपयोग कभी नहीं करते हैं।

वास्तविक ऑपरेशन एक तत्व-वार गुणन नहीं है, बल्कि एक जेकोबिएन के साथ एक ग्रेडिएंट का एक मानक मैट्रिक्स गुणन है , हमेशा ।

गैर-रैखिकता के मामले में, गैर-रैखिकता के वेक्टर इनपुट के संबंध में गैर-रैखिकता के वेक्टर आउटपुट का जैकबियन एक विकर्ण मैट्रिक्स होता है। इसलिए यह सत्य है कि इस मैट्रिक्स द्वारा गुणा गुणक nonlinearity के इनपुट के संबंध में nonlinearity के इनपुट के साथ सभी आंशिक डेरिवेटिव युक्त वेक्टर द्वारा गुणा नुकसान-वार के संबंध में nonlinearity के उत्पादन के ढाल के बराबर है। लेकिन यह इस प्रकार है Jacobian जा रहा विकर्ण से। तत्व-वार गुणा करने के लिए आपको जैकबियन कदम से गुजरना होगा, जो आपके भ्रम की व्याख्या कर सकता है।

गणित में, हमारे पास कुछ nonlinearity , एक हानि , और nonlinearity (यह कोई भी हो सकता है) के लिए एक इनपुट है । Nonlinearity के आउटपुट में समान आयाम --- जैसा कि @Logan कहते हैं, सक्रियण फ़ंक्शन को तत्व-वार के रूप में परिभाषित किया गया है। $s$ $L$ $x \in \mathbb{R}^{n \times 1}$ $s(x) \in \mathbb{R}^{n \times 1}$

हम

\nabla_{एक्स} एल = {(\frac{\partial रों (एक्स)}{\partial एक्स})}^{टी} \nabla_{रों (एक्स)} एल

$\nabla_{x}L=\left({\dfrac{\partial s(x)}{\partial x}}\right)^T\nabla_{s(x)}L$

जहाँ का जैकबियन है । इस जैकबियन का विस्तार करते हुए, हम $\dfrac{\partial s(x)}{\partial x}$ $s$

[\begin{matrix} \frac{\partial रों ({एक्स}_{1})}{\partial {एक्स}_{1}} & ... & \frac{\partial रों ({एक्स}_{1})}{\partial {एक्स}_{n}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial रों ({एक्स}_{n})}{{एक्स}_{1}} & ... & \frac{\partial रों ({एक्स}_{n})}{\partial {एक्स}_{n}} \end{matrix}]

$\begin{bmatrix} \dfrac{\partial{s(x_{1})}}{\partial{x_1}} & \dots & \dfrac{\partial{s(x_{1})}}{\partial{x_{n}}} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial{s(x_{n})}}{x_{1}} & \dots & \dfrac{\partial{s(x_{n})}}{\partial{x_{n}}} \end{bmatrix}$

हम देखते हैं कि विकर्ण को छोड़कर यह हर जगह शून्य है। हम अपने सभी विकर्ण तत्वों का एक बना सकते हैं

डी मैं ए जी (\frac{\partial रों (एक्स)}{\partial एक्स})

$Diag\left(\dfrac{\partial s(x)}{\partial x}\right)$

और फिर तत्व-वार ऑपरेटर का उपयोग करें।

\nabla_{एक्स} एल = {(\frac{\partial रों (एक्स)}{\partial एक्स})}^{टी} \nabla_{रों (एक्स)} एल = डी मैं ए जी (\frac{\partial रों (एक्स)}{\partial एक्स}) \circ \nabla_{रों (एक्स)} एल

$\nabla_{x}L =\left({\dfrac{\partial s(x)}{\partial x}}\right)^T\nabla_{s(x)}L =Diag\left(\dfrac{\partial s(x)}{\partial x}\right) \circ \nabla_{s(x)}L$

— user0
स्रोत

0

जब भी एक सक्रियण समारोह के लिए बैकप्रोफिनेट होते हैं, तो ऑपरेशन तत्व-वार हो जाते हैं। विशेष रूप से, आपके उदाहरण का उपयोग करते हुए, एक व्युत्पन्न है और एक सक्रियण व्युत्पन्न है, और उनके उत्पाद एलिमेंट उत्पाद हैं, । यह इसलिए है क्योंकि सक्रियण फ़ंक्शन को तंत्रिका नेटवर्क में तत्व-वार संचालन के रूप में परिभाषित किया गया है। $\delta_2 =(\hat{y}-y)W_2^T$ $a' = h \circ (1 -h)$ $\delta_2 \circ a'$

Cs224d लेक्चर स्लाइड पेज 30 देखें, यह भी मदद कर सकता है।

— लोगान
स्रोत