सिंगल लेयर न्यूरल नेटवर्क की ग्रेडिंग ग्रेडिएंट अपने इनपुट्स को नियंत्रित करती है, चेन नियम में ऑपरेटर क्या है?


9

समस्या यह है:

एक एकल छिपे हुए परत तंत्रिका नेटवर्क के लिए इनपुट परत के संबंध में ढाल को इनपुट के लिए सिग्मॉइड का उपयोग करके -> छिपा हुआ, छिपा के लिए सॉफ्टमैक्स -> आउटपुट, एक क्रॉस एन्ट्रॉपी लॉस के साथ।

मैं श्रृंखला नियम का उपयोग करके अधिकांश व्युत्पत्ति प्राप्त कर सकता हूं, लेकिन मैं इस बात पर अनिश्चित हूं कि वास्तव में उन्हें एक साथ "चेन" कैसे किया जाए।

कुछ अंकन को परिभाषित करें

r=xW1+b1

h=σ(r) , sigmoid फ़ंक्शन हैσ

θ=hW2+b2 ,

y^=S(θ) , सॉफ्टमैक्स फ़ंक्शन हैS

J(y^)=iylogy^i , असली लेबल वन-हॉट वेक्टरy

फिर चेन नियम से,

Jx=Jθθhhrrx

व्यक्तिगत ग्रेडिएंट हैं:

Jθ=(y^y)
θh=h[hW2+b2]=W2T
hr=h(1h)
rx=x[xW1+b1]=W1T

अब हमें एक साथ परिभाषाओं की श्रृंखला बनानी होगी। एकल-चर में यह आसान है, हम बस सब कुछ एक साथ गुणा करते हैं। वैक्टर में, मुझे यकीन नहीं है कि तत्व-वार गुणन या मैट्रिक्स गुणन का उपयोग करना है या नहीं।

Jx=(y^y)W2T[h(1h)]W1T

कहाँ वैक्टर के तत्व-वार गुणन है, और एक मैट्रिक्स गुणा है। ऑपरेशनों का यह संयोजन एकमात्र तरीका है जिससे मैं एक साथ एक स्ट्रिंग प्राप्त कर सकता हूं ताकि एक आयाम सदिश प्राप्त हो, जिसे मैं जानता हूं कि होना चाहिए।1Dxजेएक्स

मेरा प्रश्न है: मेरे लिए यह निर्धारित तरीका है कि किस ऑपरेटर का उपयोग करना है? मैं और बीच तत्व-वार की आवश्यकता से विशेष रूप से भ्रमित हूं ।डब्ल्यू2टी

धन्यवाद!


मुझे लगता है कि इनपुट के लिए ढाल ढाल खोजने का एहसास अक्सर नहीं होता है। मेरा मानना ​​है कि यह शब्द एम्बेडिंग कंप्यूटिंग के लिए एक लीड है, जहां आपके पास "इनपुट" शब्द वैक्टर को अनुकूलित करने का विकल्प है।
अमात्सुका

कैसे दीदी आपने dJ / dTheta
raaj

जवाबों:


4

मेरा मानना ​​है कि इस प्रश्न का उत्तर देने की कुंजी यह है कि तत्व-वार गुणन वास्तव में शॉर्टहैंड है और इसलिए जब आप समीकरणों को प्राप्त करते हैं तो आप वास्तव में इसका उपयोग कभी नहीं करते हैं।

वास्तविक ऑपरेशन एक तत्व-वार गुणन नहीं है, बल्कि एक जेकोबिएन के साथ एक ग्रेडिएंट का एक मानक मैट्रिक्स गुणन है , हमेशा

गैर-रैखिकता के मामले में, गैर-रैखिकता के वेक्टर इनपुट के संबंध में गैर-रैखिकता के वेक्टर आउटपुट का जैकबियन एक विकर्ण मैट्रिक्स होता है। इसलिए यह सत्य है कि इस मैट्रिक्स द्वारा गुणा गुणक nonlinearity के इनपुट के संबंध में nonlinearity के इनपुट के साथ सभी आंशिक डेरिवेटिव युक्त वेक्टर द्वारा गुणा नुकसान-वार के संबंध में nonlinearity के उत्पादन के ढाल के बराबर है। लेकिन यह इस प्रकार है Jacobian जा रहा विकर्ण से। तत्व-वार गुणा करने के लिए आपको जैकबियन कदम से गुजरना होगा, जो आपके भ्रम की व्याख्या कर सकता है।

गणित में, हमारे पास कुछ nonlinearity , एक हानि , और nonlinearity (यह कोई भी हो सकता है) के लिए एक इनपुट है । Nonlinearity के आउटपुट में समान आयाम --- जैसा कि @Logan कहते हैं, सक्रियण फ़ंक्शन को तत्व-वार के रूप में परिभाषित किया गया है।रोंएलएक्सआरn×1रों(एक्स)आरn×1

हम

एक्सएल=(रों(एक्स)एक्स)टीरों(एक्स)एल

जहाँ का जैकबियन है । इस जैकबियन का विस्तार करते हुए, हम रों(एक्स)एक्सरों

[रों(एक्स1)एक्स1...रों(एक्स1)एक्सnरों(एक्सn)एक्स1...रों(एक्सn)एक्सn]

हम देखते हैं कि विकर्ण को छोड़कर यह हर जगह शून्य है। हम अपने सभी विकर्ण तत्वों का एक बना सकते हैं

डीमैंजी(रों(एक्स)एक्स)

और फिर तत्व-वार ऑपरेटर का उपयोग करें।

एक्सएल=(रों(एक्स)एक्स)टीरों(एक्स)एल=डीमैंजी(रों(एक्स)एक्स)रों(एक्स)एल

0

जब भी एक सक्रियण समारोह के लिए बैकप्रोफिनेट होते हैं, तो ऑपरेशन तत्व-वार हो जाते हैं। विशेष रूप से, आपके उदाहरण का उपयोग करते हुए, एक व्युत्पन्न है और एक सक्रियण व्युत्पन्न है, और उनके उत्पाद एलिमेंट उत्पाद हैं, । यह इसलिए है क्योंकि सक्रियण फ़ंक्शन को तंत्रिका नेटवर्क में तत्व-वार संचालन के रूप में परिभाषित किया गया है।δ2=(y^-y)डब्ल्यू2टी'=(1-)δ2'

Cs224d लेक्चर स्लाइड पेज 30 देखें, यह भी मदद कर सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.