क्या गहरी खोज के लिए खोज विधि का उपयोग किया जाता है? क्यों नहीं?


18

बहुत सारे ट्यूटोरियल ऑनलाइन ग्रेडिएंट डिसेंट के बारे में बात करते हैं और लगभग सभी एक निश्चित स्टेप साइज (सीखने की दर ) का उपयोग करते हैं। लाइन सर्च का कोई उपयोग क्यों नहीं होता है (जैसे कि बैकट्रैकिंग लाइन सर्च या सटीक लाइन सर्च)?α


5
"और उनमें से लगभग सभी एक निश्चित चरण आकार का उपयोग करते हैं" - क्या आप सुनिश्चित हैं? "सीखने की दर" हाइपर मापदंडों को शर्तों के चरण आकार को अनुकूलित करने के लिए माना जाता है। एक बहुत लोकप्रिय एडम एल्गोरिथ्म कदम आकार को अनुकूलित करता है
अक्कल

1
हम्म, वास्तव में अनुकूली स्टेप साइज ग्रेडिएंट विधियां कम से कम 2011 के बाद से हैं, और उन्हें विकिपीडिया स्टोचस्टिक ग्रेडिएंट डिसेंट पेज पर भी उद्धृत किया गया है । यह बिल्कुल गर्म खबर नहीं है। यहां तक ​​कि वेनिला SGD का उपयोग हमेशा सीखने की दर के साथ किया जाता है जो पुनरावृत्तियों ( अनुसूची ) की संख्या के साथ बदलता है । अब, एक बहुत अच्छा सवाल होगा: क्यों, भले ही बहुत सारे अनुकूली ढाल वंश विधियां हों, लेकिन अभी भी डीप लर्निंग दुनिया पर हावी है? यह प्रश्न जितना प्रतीत हो सकता है उससे बहुत कम तुच्छ है।
डेल्टा

1
Backtracking लाइन-खोज एक दिशा को ठीक करता है और फिर फ़ंक्शन को कम करने का एक तरीका ढूंढता है। इसलिए जब तक आपके पास खोज करने के लिए दिशा चुनने का एक बुद्धिमान तरीका नहीं है, आप एक थकाऊ अनुकूलन के लिए हैं।
एलेक्स आर।

1
मैं यह नहीं देखता कि लाइन की खोज समझदारी के लिए समझ में आता है (जैसा कि [बैच] ग्रेडिएंट डिसेंट के विपरीत) - इसलिए मैं कहूंगा कि यही कारण है।
1930 में seanv507

3
मुझे इस कारण पर संदेह है कि लाइन सर्च बहुत लोकप्रिय नहीं है, ग्रेडिएंट डिसेंट में बैचिंग है। आपको एक बैच मिलता है, फिर ग्रेडिएंट की गणना करें। यह ढाल में शोर के कारण लाइन को आगे और पीछे करने के लिए बहुत मायने नहीं रखता है। कदम आकार की घोषणा करते समय अगले बैच के साथ चलते रहना बेहतर है।
अक्कल

जवाबों:


14

वेनिला ढाल वंश को लाइन खोजों का उपयोग करके अधिक विश्वसनीय बनाया जा सकता है; मैंने एल्गोरिदम लिखा है जो ऐसा करता है और यह एक बहुत ही स्थिर एल्गोरिथ्म के लिए बनाता है (हालांकि जरूरी नहीं कि यह तेज हो)।

हालांकि, स्टोकेस्टिक क्रमिक विधियों के लिए एक लाइन खोज करने के लिए लगभग कोई मतलब नहीं है । यह कहने का कारण यह है कि यदि हम पूर्ण हानि फ़ंक्शन को कम करने के आधार पर एक पंक्ति खोज करते हैं, तो हमने स्टोचस्टिक विधियों को करने के लिए तुरंत मुख्य प्रेरणाओं में से एक को खो दिया है; अब हमें प्रत्येक अद्यतन के लिए पूर्ण हानि फ़ंक्शन की गणना करने की आवश्यकता है, जिसमें आम तौर पर कम्प्यूटेशनल लागत की गणना की जाती है जो पूर्ण प्रथम व्युत्पत्ति की गणना करने के लिए तुलनीय है। यह देखते हुए कि हम कम्प्यूटेशनल लागतों के कारण पूर्ण ढाल की गणना करने से बचना चाहते थे, यह बहुत कम संभावना है कि हम पूर्ण हानि फ़ंक्शन की गणना के साथ ठीक होना चाहते हैं।

वैकल्पिक रूप से, आप अपने यादृच्छिक रूप से सैंपल किए गए डेटा बिंदु के आधार पर एक लाइन खोज जैसा कुछ करने के बारे में सोच सकते हैं। हालाँकि, यह एक अच्छा विचार नहीं है; यह आपको इस बारे में कुछ नहीं बताएगा कि क्या आपने बहुत दूर कदम रखा है (जो लाइन खोजों का मुख्य लाभ है)। उदाहरण के लिए, मान लीजिए कि आप लॉजिस्टिक रिग्रेशन कर रहे हैं। फिर प्रत्येक परिणाम केवल 0 या 1 है, और किसी भी एक नमूने के लिए, हम तुच्छ रूप से पूर्ण पृथक्करण प्राप्त करते हैं, इसलिए 1 के नमूने के आधार पर हमारे प्रतिगमन मापदंडों के लिए इष्टतम समाधान तुच्छ रूप से है या हक डोनर प्रभाव द्वारा। यह अच्छा नहीं है।

संपादित करें

@ डेल्टिव बताते हैं कि यह मिनी-बैच पर भी लागू होता है, न कि केवल व्यक्तिगत नमूनों पर।


4
बहुत अच्छा (+1), लेकिन मुझे यकीन नहीं है कि आखिरी उदाहरण में आप एकल नमूने के बारे में क्यों बात करते हैं। मैं सहमत हूं कि एक मिनी-बैच पर आधारित लाइन सर्च की गणना करने का कोई मतलब नहीं है, लेकिन एक मिनी-बैच में अभी भी 512 नमूने हैं (आमतौर पर, और जब इमेजनेट के बारे में बात करते हैं): बेशक मिनी में नमूनों की संख्या के लिए कोई निश्चित मूल्य नहीं है -बैच करें, लेकिन 1 नमूना मिनी-बैचों को थोड़ा चरम लगता है। क्या आपने उनका उपयोग सिर्फ अपनी बात को और अधिक स्पष्ट करने के लिए किया है, या मैं कुछ याद कर रहा हूँ?
डेल्टा

2
@ डेल्टिव: एकल नमूना ज्यादातर इस बात को बनाने के लिए है कि यह एक बहुत ही साधारण समस्या पर कितना बुरा हो सकता है। अगर हमने 512+ कोवरिएट्स के साथ लॉजिस्टिक रिग्रेशन पर 512 नमूनों के साथ मिनी-बैच किया, तो हम एक ही मुद्दा देखेंगे।
क्लिफ एबी

10

ट्यूटोरियल क्रमिक वंश के बारे में संभवतः बात करते हैं क्योंकि यह अनुकूलन के लिए उपयोग किए जाने वाले सबसे सरल एल्गोरिदम में से एक है, इसलिए इसे समझाना आसान है। चूंकि इस तरह के अधिकांश ट्यूटोरियल संक्षिप्त हैं, वे साधारण सामान पर ध्यान केंद्रित करते हैं। सरल ढाल वंश से परे कम से कम कई लोकप्रिय अनुकूलन एल्गोरिदम हैं जो गहरी सीखने के लिए उपयोग किए जाते हैं। वास्तव में लोग अक्सर अलग-अलग एल्गोरिदम का उपयोग करते हैं, फिर क्रमिक वंश के बाद से वे आमतौर पर तेजी से परिवर्तित होते हैं। उनमें से कुछ के पास गैर-निरंतर सीखने की दर है (उदाहरण के लिए समय के साथ घटती है)। इस तरह के एल्गोरिदम की समीक्षा के लिए आप सेबेस्टियन रुडर (या arXived पेपर ) द्वारा ग्रेडिएंट डीसेंट ऑप्टिमाइज़ेशन एल्गोरिदम पोस्ट का अवलोकन देख सकते हैं ।


2
@DeltaIV: सभी "अन्य" फैंसी तरीकों को SGD के शीर्ष पर बनाया गया है। मुख्य मुद्दा यह है कि ग्रेडिएंट की गणना करने के लिए यादृच्छिक तरीके से नमूने लेने के बजाय अन्य तरीकों से स्थानीय ज्ञान का लाभ उठाया जाता है। लेकिन SGD इतना सरल और तेज़ है, और यह अपने आप पर पूरी तरह से भयानक नहीं है।
एलेक्स आर।

2
@AlexR। मुद्दा यह नहीं है कि SGD सरल और / या तेज़ है। सादगी मायने नहीं रखती है, क्योंकि सभी सभ्य पुस्तकालयों में डब्ल्यूडब्ल्यूडी, एडम, एडग्रैड और आरएमएसप्रॉप (और अधिक, कभी-कभी) लागू होते हैं। गति और भी कम मायने रखती है, क्योंकि पैरामीटर-स्तरीय अपडेट की गणना करने के लिए, जैसे, एडम, द्वारा खर्च किए गए समय, रेसनेट जैसे मॉडल के समग्र प्रशिक्षण समय की तुलना में असीम है। एकमात्र बिंदु यह है कि, किसी कारण से हम आज पूरी तरह से समझ नहीं पाते हैं, तो एसडब्ल्यूई उनसे बेहतर सामान्यीकरण करता है। इसलिए मूल रूप से यदि आप SOTA को हराना चाहते हैं, तो आपको अक्सर इसका उपयोग करने के लिए मजबूर किया जाता है, या कम से कम प्रशिक्षण के दौरान इसे बाद में स्विच करने के लिए।
डेल्टा

3
@ डेल्टिव बहुत दिलचस्प है। मैंने आपके द्वारा लिंक किए गए पेपर को खोला, और यह विल्सन एट अल 2017 के दावे के संदर्भ में बताता है कि डब्ल्यूडब्ल्यूई एडम आदि से बेहतर सामान्यीकरण करता है; इसलिए जब आप कहते हैं कि यह "अच्छी तरह से जाना जाता है", तो आपको लगभग आधे साल के बाद से अच्छी तरह से जाना जाता है, है ना?
अमीबा का कहना है कि मोनिका

2
@DeltaIV धन्यवाद। मैं खुद से बहुत कुछ नहीं सीख रहा हूं, और मुझे इस बारे में बिल्कुल भी जानकारी नहीं थी। 2012 में वापस या तो जब मैं हिंटन के कोर्टेरा व्याख्यान देख रहा था, वह मुख्य रूप से आरएमएसप्रॉप की वकालत कर रहे थे और हाल के 1-2 वर्षों में मेरी धारणा यह थी कि हर कोई एडम पेपर के अनुसार एडम का उपयोग कर रहा है (जो आरएमएसप्रॉप को सुपरकोड करता है)। जब मैं पिछले साल ऑटोएन्कोडर्स के साथ खेल रहा था , तो मुझे एहसास हुआ कि एडम डब्ल्यूडब्ल्यूई की तुलना में बहुत तेजी से काम करता है, और तब से यह मान लिया गया कि एडम आजकल एक डिफ़ॉल्ट विकल्प है।
अमीबा का कहना है कि मोनिका

3
@ क्लिफ़ब हां, शुरुआती रोक और नियमितीकरण के बीच संबंध को कम से कम वर्गों के लिए स्पष्ट रूप से देखा जा सकता है, जहां ढाल वंश पूर्वजन्म के आधार पर संचालित होता है और छोटे eigenvalues ​​अभिसरण करने वाले अंतिम होते हैं; जबकि रिज दंड छोटे eigenvalues ​​को भी दंडित करता है। मैं अब केवल विल्सन एट अल में एक त्वरित नज़र रखता था। ऊपर लिंक किया गया है, लेकिन कम से कम उनके कम से कम वर्गों के उदाहरण में, उदाहरण के लिए, एडम बनाम अलग बनाम जल्दी देर से रोकने के द्वारा नहीं समझाया गया है। वे दावा करते हैं कि वे विभिन्न समाधानों के लिए अभिसरण करते हैं।
अमीबा का कहना है कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.