व्यवहार में प्रयुक्त "सैडल-फ्री न्यूटन" वंश एल्गोरिथ्म क्यों नहीं है?


13

हाल ही में मैंने Yann Dauphin et al द्वारा एक पेपर पढ़ा है। उच्च-आयामी गैर-उत्तल अनुकूलन में काठी बिंदु समस्या की पहचान करना और उस पर हमला करना , जहां वे सैडल-फ्री न्यूटन नामक एक दिलचस्प वंश एल्गोरिथ्म का परिचय देते हैं , जो तंत्रिका नेटवर्क अनुकूलन के लिए बिल्कुल अनुरूप लगता है और दुखद बिंदुओं में फंसने से पीड़ित नहीं होना चाहिए। वेनिला SGD के रूप में पहले के आदेश के तरीकों की तरह।

पेपर 2014 में वापस आ गया, इसलिए यह कुछ भी नया नहीं है, हालांकि, मैंने इसे "वाइल्ड" में इस्तेमाल नहीं किया है। इस पद्धति का उपयोग क्यों नहीं किया जा रहा है? क्या हेसियन अभिकलन वास्तविक दुनिया के आकार की समस्याओं / नेटवर्कों के लिए भी निषेधात्मक है? क्या इस एल्गोरिथ्म का कुछ खुला स्रोत कार्यान्वयन भी है, संभवत: कुछ प्रमुख गहरे शिक्षण ढाँचों के साथ उपयोग किया जा सकता है?

फरवरी 2019 को अपडेट करें : अब एक कार्यान्वयन उपलब्ध है: https://github.com/dave-fernandes/SaddleFreeOptimizer )


अच्छा सवाल है, मुझे कुछ नहीं मिला। हालाँकि, स्यूडोकोड बहुत सरल है, इसलिए आप इसे स्वयं आजमा सकते हैं, इस स्थिति में लेखकों के डॉक्टरेट थीसिस (पृष्ठ 103, papyrus.bib.umontreal.ca.xmlui / bitstream / handle) में से कुछ में उपयोगी कार्यान्वयन विवरण हैं। / १ /
६६

1
मुझे उबर डीप-न्यूरोएवोल्यूशन ब्लॉग पोस्ट में इसी पेपर का संदर्भ मिला। लिंक: eng.uber.com/deep-neuroevolution आप लेखक से पूछ सकते हैं कि क्या उनका कोई ऑनलाइन कार्यान्वयन / GitHub के माध्यम से साझा किया गया है।
कैंटीन

यहाँ TensorFlow के लिए एक कार्यान्वयन है: github.com/dave-fernandes/SaddleFreeOptimizer
डेव एफ

अगर मुझे अनुमान लगाना था, तो मेरी धारणा यह होगी कि हेस्सियन को इन्वर्ट करना + अव्यवहारिक है जब आपके मॉडल में लाखों पैरामीटर होते हैं।
साइकोरैक्स का कहना है कि मोनिका

1
क्या आप "क्या कोई कार्यान्वयन है" से अपने प्रश्न को परिष्कृत कर सकते हैं? यह बर्दाश्त करने के लिए लगता है, हाँ / नहीं उत्तर और / या एक सॉफ्टवेयर अनुरोध की तरह लगता है (जो यहाँ विषय से दूर है)। क्या आपका प्रश्न कुछ इस तरह से विस्तृत किया जा सकता है, 'कौन सी कठिनाइयाँ बताती हैं कि ऐसा क्यों नहीं लगता कि अधिक कार्यान्वयन हुआ है'?
गूँग - मोनिका

जवाबों:


2

बेहतर अनुकूलन का मतलब बेहतर मॉडल होना जरूरी नहीं है। अंत में हम इस बात की परवाह करते हैं कि मॉडल कितना सामान्य है, और जरूरी नहीं कि प्रशिक्षण सेट पर प्रदर्शन कितना अच्छा हो। फैनसीयर ऑप्टिमाइज़ेशन तकनीक आमतौर पर बेहतर प्रदर्शन करती हैं और प्रशिक्षण सेट पर तेजी से अभिसरण करती हैं, लेकिन हमेशा सामान्य एल्गोरिदम के साथ-साथ सामान्यीकरण नहीं करती हैं। उदाहरण के लिए यह कागज दिखाता है कि SGD ADAM ऑप्टिमाइज़र से बेहतर सामान्यीकरण कर सकता है। यह कुछ दूसरे आदेश अनुकूलन एल्गोरिदम के मामले में भी हो सकता है।


[संपादित करें] पहला बिंदु हटा दिया क्योंकि यह यहां लागू नहीं होता है। यह इंगित करने के लिए बायरज के लिए धन्यवाद।


1
जबकि मैं दूसरे बिंदु से सहमत हूं, पहले वाला यहाँ मान्य नहीं है। लेखक केवल क्रायलोव उप-क्षेत्र में अनुकूलन करने का प्रस्ताव रखते हैं, जिसमें द्विघात जटिलता की आवश्यकता नहीं होती है।
21
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.