बैच के सामान्यीकरण को कुछ देखभाल के साथ क्यों किया जाता है, इसका उदाहरण क्या है?


11

मैं बैच नॉर्मलाइज़ेशन पेपर [1] पढ़ रहा था और इसमें एक सेक्शन था, जो एक उदाहरण से गुजरता है, यह दिखाने की कोशिश करता है कि क्यों नॉर्मलाइज़ेशन को ध्यान से करना पड़ता है। मैं ईमानदारी से समझ नहीं पा रहा हूं कि उदाहरण कैसे काम करता है और मैं वास्तव में बहुत उत्सुक हूं कि वे जितना समझ सकते हैं उतना कागज। पहले मुझे इसे यहाँ उद्धृत करें:

उदाहरण के लिए, इनपुट के साथ एक परत पर विचार यू सीखा पूर्वाग्रह ख कहते हैं, और सक्रियण प्रशिक्षण डेटा पर गणना की की संकरी को घटा कर परिणाम को सामान्य है जहां एक्स = यू + , एक्स = { एक्स एन } के मूल्यों का सेट है एक्स प्रशिक्षण सेट से अधिक है, और [ एक्स ] = Σ एन मैं = 1 एक्स मैंx^=xE[x]x=u+b,X={x1...N}xE[x]=i=1Nxi। एक ढाल वंश कदम की निर्भरता पर ध्यान नहीं देता है, तो पर , तो यह अद्यतन करेगा + Δ > , जहां Δ α - एलE[x]bbb+Δ>b । फिरयू+(+Δ)-[यू+(+Δ)]=यू+-[यू+]। इस प्रकार,सामान्यीकरण मेंबीऔर बाद के बदलावके अपडेट के संयोजनने परत के उत्पादन में कोई बदलाव नहीं किया और न ही, परिणामस्वरूप, नुकसान।Δblx^u+(b+Δb)E[u+(b+Δb)]=u+bE[u+b]b

मुझे लगता है कि मैं संदेश को समझता हूं, कि यदि कोई सामान्य रूप से सामान्यीकरण नहीं करता है, तो यह खराब हो सकता है। मैं अभी उदाहरण नहीं देता कि वे इसका उपयोग कैसे कर रहे हैं।

मुझे पता है कि किसी की मदद करना मुश्किल है अगर वे इस बात पर अधिक विशिष्ट नहीं हैं कि उन्हें क्या भ्रमित कर रहा है तो मैं अगले खंड पर प्रदान करूंगा, जो चीजें मुझे उनके स्पष्टीकरण के बारे में भ्रमित कर रही हैं।


मुझे लगता है कि मेरे अधिकांश भ्रम तर्कसंगत हो सकते हैं, इसलिए मैं स्पष्ट करूंगा।

सबसे पहले, मुझे लगता है कि चीजों में से एक है जो मुझे बहुत भ्रमित कर रही है कि लेखकों के लिए नेटवर्क में एक इकाई होने का क्या मतलब है और एक सक्रियण क्या है। आमतौर पर, मैं एक सक्रियण के बारे में सोचता हूं:

x(l)=a(l)=θ(z(l))=θ(w(l),x(l1)+b(l))

जहाँ पहली इनपुट परत से कच्चा फ़ीचर वैक्टर है।x(0)=a(0)=x

इसके अलावा, मुझे लगता है कि पहली चीज जो मुझे भ्रमित करती है (पिछले कारण के कारण) वह वह परिदृश्य है जो वे वास्तव में समझाने की कोशिश कर रहे हैं। इसे कहते हैं:

सक्रियण प्रशिक्षण डेटा पर गणना की की संकरी को घटा कर परिणाम को सामान्य एक्स = एक्स - [ एक्स ] जहां एक्स = यू + x^=xE[x]x=u+b

मुझे लगता है कि वे जो कहने की कोशिश कर रहे हैं, वह यह है कि सक्रियण के उपयोग के बजाय आगे पास द्वारा गणना की जाती है, कोई माध्य सक्रियण घटाकर किसी प्रकार का "सामान्यीकरण" करता है:x(l)=a(l)

x¯l=a¯l=1Ni=1Na¯l=1Ni=1Nx¯l

और फिर उसे पीछे-प्रसार एल्गोरिथ्म तक पहुंचाता है। या कम से कम मुझे क्या मतलब होगा।

इस से संबंधित, मुझे लगता है कि वे जिसे कहते हैं वह शायद x ( l ) है ? Thats मैं क्या अनुमान लगाऊंगा क्योंकि वे इसे "इनपुट" कहते हैं और समीकरण x = u + b है (मुझे लगता है कि वे अपने तंत्रिका नेटवर्क के लिए पहचान / रैखिक सक्रियण इकाई का उपयोग कर रहे हैं? शायद)।ux(l)x=u+b

आगे भ्रमित मेरे लिए, वे परिभाषित कुछ आंशिक व्युत्पन्न के लिए आनुपातिक रूप में, लेकिन आंशिक व्युत्पन्न के संबंध में गणना की जाती है एक्स , जो मेरे लिए वास्तव में विचित्र लगता है। आमतौर पर, ढाल मूल का उपयोग करते समय आंशिक डेरिवेटिव नेटवर्क के मापदंडों के संबंध में होते हैं। एक ऑफसेट के मामले में, मैंने सोचा होगा:Δbx^

Δb(l)lb(l)

सामान्यीकृत गतिविधियों के संबंध में व्युत्पन्न लेने के बजाय अधिक समझ में आता है। मुझे यह समझाया गया है कि वे के संबंध में व्युत्पन्न काफ़ी होगा कोशिश कर रहा था एक्स और मुझे लगा कि डेल्टा की चर्चा करते हुए थे जब उनके द्वारा लिखे गए एलx^ के बाद से आमतौर पर है कि बैक-प्रोप एल्गोरिथ्म पूर्व सक्रियण के बाद से डेल्टा का समीकरण है सम्मान के साथ एक व्युत्पन्न है कि का ही हिस्सा है:lx^

δj(l)=Lzj(l)

एक और बात जो मुझे भ्रमित करती है:

फिर u+(b+Δb)E[u+(b+Δb)]=u+bE[u+b]

वे वास्तव में नहीं कहता कि वे क्या उपरोक्त समीकरण में गणना करने के लिए कोशिश कर रहे हैं, लेकिन मैं यह अनुमान लगा है कि वे के बाद (पहली परत? के लिए) अद्यतन सामान्यीकृत सक्रियण गणना करने के लिए कोशिश कर रहे हैं के लिए अद्यतन किया जाता है + Δ ? यकीन नहीं होता कि मैं उनकी बात खरीदूं क्योंकि मुझे लगता है कि सही समीकरण होना चाहिए था:bb+Δb

x^=θ(u+(b+Δb))E[θ(u+(b+Δb))]

रद्द नहीं करता जो पैरामीटर में परिवर्तन । हालांकि, मैं वास्तव में नहीं जानता कि वे क्या कर रहे हैं इसलिए मैं सिर्फ अनुमान लगा रहा हूं। वास्तव में वह समीकरण क्या है जो उन्होंने लिखा है?Δbb

मुझे यकीन नहीं है कि यह सही समझ है लेकिन मैंने उनके उदाहरण के लिए कुछ सोचा है। ऐसा लगता है कि उनके उदाहरण में कोई गैर-रैखिक सक्रियण इकाई नहीं है (पहचान का उपयोग करता है) और वे केवल पहली इनपुट परत के बारे में बात कर रहे हैं? चूंकि उन्होंने बहुत सारे विवरण छोड़ दिए हैं और यह धारणा बहुत स्पष्ट नहीं है कि मैं बिल्कुल वही नहीं घटा सकता जो वे बात कर रहे हैं। क्या कोई जानता है कि इस उदाहरण को संकेतन के साथ कैसे व्यक्त किया जाए जो प्रत्येक परत पर क्या हो रहा है? क्या कोई यह समझ पाता है कि वास्तव में उस उदाहरण के साथ क्या हो रहा है और मेरे साथ अपनी बुद्धि साझा करना चाहते हैं?


[१]: Ioffe S. और Szegedy C. (२०१५),
"बैच सामान्यीकरण: आंतरिक कोवरेट शिफ्ट को कम करके डीप नेटवर्क प्रशिक्षण में तेजी",
मशीन लर्निंग , लिली, फ्रांस, 2015 पर 32 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही
मशीन लर्निंग का जर्नल अनुसंधान: डब्ल्यू एंड सीपी मात्रा 37


मुझे लगता है कि उस पैराग्राफ की उल्लेखनीय प्रकृति अब स्पष्ट है लेकिन संदेश जो संदेश देने की कोशिश कर रहा है और उसका उद्देश्य कम स्पष्ट है।
चार्ली पार्कर

जवाबों:


3

E[x]b

हालाँकि, अगर इन संशोधनों को ऑप्टिमाइज़ेशन स्टेप्स के साथ जोड़ दिया जाता है, तो ग्रेडिएंट डिसेंट स्टेप पैरामीटर्स को इस तरह से अपडेट करने का प्रयास कर सकता है, जिसके लिए सामान्यीकरण को अपडेट करने की आवश्यकता होती है, जिससे ग्रेडिएंट स्टेप का प्रभाव कम हो जाता है।

इसलिए उन्होंने ढाल के वंश को अपनी पद्धति में सामान्यीकरण के बारे में अवगत कराया।


आपके बारे में सवाल

ux(l)

uub

Δblb

x^=xE[x]=u+bE[x]E[x]b

lb=lx^x^b=lx^,
Δblx^

u+(b+Δb)E[u+(b+Δb)]=u+bE[u+b]bb+Δb

x^bb+ΔbE[x]b


यह में उदाहरण के लिए, बैच सामान्य से कुछ खुला स्रोत कार्यान्वयन पर एक नज़र लेने के लिए उपयोगी हो सकता है Lasagne और Keras

एक और सवाल है जो संबंधित लग सकता है, क्यों तंत्रिका नेटवर्क में बैच सामान्यीकरण का उपयोग करते समय क्षणों (माध्य और विचरण) की ढाल लें?


इसलिए मुझे लगता है कि उनकी बात यह है कि उन्हें जीडी अपडेट को सामान्य बनाने के लिए जागरूक करने की आवश्यकता है ताकि पूर्वाग्रह को अपडेट करते समय नुकसान में बदलाव आए? या उस पैराग्राफ का केंद्रीय लक्ष्य क्या है?
चार्ली पार्कर

@CharlieParker हाँ मुझे लगता है, यह दिखाने के लिए कि सामान्यीकरण (IMO) के बारे में GD अपडेट करने के लिए कोई कारण है।
नॉट्लू

क्या ई [Δb] = Δb है? यदि हां, तो क्यों?
21
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.