क्या अवशिष्ट नेटवर्क ग्रैडिएंट बूस्टिंग से संबंधित हैं?


11

हाल ही में, हमने अवशिष्ट तंत्रिका नेट के उद्भव को देखा, जिसमें, प्रत्येक परत में एक कम्प्यूटेशनल मॉड्यूल और एक शॉर्टकट कनेक्शन होता है, जो परत को इनपुट को संरक्षित करता है जैसे कि ith लेयर का आउटपुट प्रदर्शित करता है: नेटवर्क अवशिष्ट सुविधाओं को निकालने की अनुमति देता है और गायब होने वाली ढाल समस्या के लिए और अधिक मजबूत होने की अनुमति देता है, कला प्रदर्शन की स्थिति को प्राप्त करता है।ci

yi+1=ci+yi

ग्रैडिएंट बूस्टिंग में तल्लीन होने के बाद , मशीन सीखने की दुनिया में एक बहुत ही शक्तिशाली पहनावा तकनीक, जो नुकसान के अवशिष्ट पर ढाल अनुकूलन का एक रूप प्रदर्शन करने के लिए भी लगता है, इसकी समानता के कुछ रूप को देखने के लिए मुश्किल नहीं है।

मुझे पता है कि वे समान हैं, लेकिन समान नहीं हैं - मैंने देखा कि एक बड़ा अंतर यह है कि ढाल बढ़ाने वाला एडिटिव टर्म पर अनुकूलन करता है जबकि अवशिष्ट शुद्ध, पूरे नेटवर्क का अनुकूलन करता है।

मैंने यह नहीं देखा कि वह अपने मूल पेपर में अपनी प्रेरणा के हिस्से के रूप में इसे नोट करता है । इसलिए मैं सोच रहा था कि इस विषय पर आपकी अंतर्दृष्टि क्या है और पूछें कि आपके पास दिलचस्प संसाधन हैं जो आपके पास हैं।

धन्यवाद।

जवाबों:


7

संभावित रूप से एक नया पेपर जो लैंगफोर्ड और शापायर टीम से इसे और अधिक संबोधित करने का प्रयास करता है: डीप रेसनेट ब्लाकों को सीखना क्रमिक रूप से बूस्टिंग थ्योरी का उपयोग करना

रुचि के भाग हैं (अनुभाग 3 देखें):

मुख्य अंतर यह है कि बूस्टिंग अनुमानित परिकल्पना का एक संयोजन है, जबकि ResNet अनुमानित सुविधा प्रतिनिधित्व । इस समस्या को हल करने के लिए, हम एक परिकल्पना मॉड्यूल का निर्माण करने के लिए प्रत्येक अवशिष्ट ब्लॉक के शीर्ष पर एक सहायक रेखीय करते हैं । औपचारिक रूप से एक परिकल्पना मॉड्यूल को रूप में परिभाषित किया गया हैt=0Tft(gt(x))wt

ot(x):=wtTgt(x)R

...

(जहां)ot(x)=t=0t1wtTft(gt(x))

पेपर कमजोर मॉड्यूल क्लासिफायरियर के निर्माण के आसपास और अधिक विस्तार में जाता है और यह कि उनके BoostResNet एल्गोरिदम के साथ कैसे एकीकृत होता है।ht(x)


इस उत्तर में थोड़ा और विवरण जोड़ते हुए, सभी बूस्टिंग एल्गोरिदम को किसी [1] (पी 5, 180, 185 ...) के रूप में लिखा जा सकता है:

FT(x):=t=0Tαtht(x)

जहाँ को कमजोर परिकल्पना है, कुछ के लिए । ध्यान दें कि अलग-अलग बूस्टिंग एल्गोरिदम विभिन्न तरीकों से और प्राप्त करेंगे ।httthαtαtht

उदाहरण के लिए AdaBoost [1] (p 5.) भारित त्रुटि को कम करने के लिए का उपयोग करता है साथhtϵtαt=12log1ϵtϵt

दूसरी ओर, बूस्टिंग सेटिंग में [1] (p 190.), को चुना जाता है जो , और चुना जाता है (सीखने की दर आदि के रूप में)htL(Ft1(x))htαt>0

Lemma 3.2 के तहत जहां [2] में दिखाया गया है, यह दिखाया गया है कि गहराई का उत्पादन- ResNet जो इसके बराबर हैTF(x)

F(x)t=0Tht(x)

यह बढ़ाने और रीसेट करने के बीच के रिश्ते को पूरा करता है। पेपर [2] में इसे के रूप में प्राप्त करने के लिए सहायक रैखिक परत जोड़ने का प्रस्ताव है , जो उनके BoostResNet एल्गोरिथ्म और उसके आसपास कुछ को आगे बढ़ाता है।FT(x):=t=0Tαtht(x)

[१] रॉबर्ट ई। शेपायर और योव फ्रंड। 2012. बूस्टिंग: नींव और एल्गोरिदम। एमआईटी प्रेस। पी ५,
१ 189० , १ 5 ९ [२] फुरोंग हुआंग, जॉर्डन ऐश, जॉन लैंगफोर्ड, रॉबर्ट शापायर: डीप रेसनेट ब्लाकों को सीखना क्रमिक रूप से बूस्टिंग थ्योरी, आईसीएमएल २०१ 189 का उपयोग करना


4

अपने स्वयं के प्रश्न का उत्तर देते हुए: मैंने एक उल्लेखनीय पेपर पाया है जो यह जांचता है और साबित करता है कि डीप रेजिडेंशियल नेटवर्क वास्तव में उथले नेटवर्क का एक समूह है।

ANOTHER EDIT, इस मुद्दे को समझने के बाद और अधिक संक्षिप्त करता है: मैं 'फीचर बूस्ट' सीखने के तरीके के रूप में Resnets को देखता हूं। अवशिष्ट कनेक्शन बूस्टिंग को बढ़ाता है लेकिन उद्देश्य पर नहीं बल्कि वास्तव में अगली परत के आउटपुट फीचर्स पर। इसलिए वे वास्तव में जुड़े हुए हैं, लेकिन इसकी शास्त्रीय ढाल को बढ़ावा नहीं दे रहे हैं, लेकिन वास्तव में, 'ग्रेडिएंट फीचर बूस्टिंग'।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.