बहुत सारे ट्यूटोरियल ऑनलाइन ग्रेडिएंट डिसेंट के बारे में बात करते हैं और लगभग सभी एक निश्चित स्टेप साइज (सीखने की दर ) का उपयोग करते हैं। लाइन सर्च का कोई उपयोग क्यों नहीं होता है (जैसे कि बैकट्रैकिंग लाइन सर्च या सटीक लाइन सर्च)?
बहुत सारे ट्यूटोरियल ऑनलाइन ग्रेडिएंट डिसेंट के बारे में बात करते हैं और लगभग सभी एक निश्चित स्टेप साइज (सीखने की दर ) का उपयोग करते हैं। लाइन सर्च का कोई उपयोग क्यों नहीं होता है (जैसे कि बैकट्रैकिंग लाइन सर्च या सटीक लाइन सर्च)?
जवाबों:
वेनिला ढाल वंश को लाइन खोजों का उपयोग करके अधिक विश्वसनीय बनाया जा सकता है; मैंने एल्गोरिदम लिखा है जो ऐसा करता है और यह एक बहुत ही स्थिर एल्गोरिथ्म के लिए बनाता है (हालांकि जरूरी नहीं कि यह तेज हो)।
हालांकि, स्टोकेस्टिक क्रमिक विधियों के लिए एक लाइन खोज करने के लिए लगभग कोई मतलब नहीं है । यह कहने का कारण यह है कि यदि हम पूर्ण हानि फ़ंक्शन को कम करने के आधार पर एक पंक्ति खोज करते हैं, तो हमने स्टोचस्टिक विधियों को करने के लिए तुरंत मुख्य प्रेरणाओं में से एक को खो दिया है; अब हमें प्रत्येक अद्यतन के लिए पूर्ण हानि फ़ंक्शन की गणना करने की आवश्यकता है, जिसमें आम तौर पर कम्प्यूटेशनल लागत की गणना की जाती है जो पूर्ण प्रथम व्युत्पत्ति की गणना करने के लिए तुलनीय है। यह देखते हुए कि हम कम्प्यूटेशनल लागतों के कारण पूर्ण ढाल की गणना करने से बचना चाहते थे, यह बहुत कम संभावना है कि हम पूर्ण हानि फ़ंक्शन की गणना के साथ ठीक होना चाहते हैं।
वैकल्पिक रूप से, आप अपने यादृच्छिक रूप से सैंपल किए गए डेटा बिंदु के आधार पर एक लाइन खोज जैसा कुछ करने के बारे में सोच सकते हैं। हालाँकि, यह एक अच्छा विचार नहीं है; यह आपको इस बारे में कुछ नहीं बताएगा कि क्या आपने बहुत दूर कदम रखा है (जो लाइन खोजों का मुख्य लाभ है)। उदाहरण के लिए, मान लीजिए कि आप लॉजिस्टिक रिग्रेशन कर रहे हैं। फिर प्रत्येक परिणाम केवल 0 या 1 है, और किसी भी एक नमूने के लिए, हम तुच्छ रूप से पूर्ण पृथक्करण प्राप्त करते हैं, इसलिए 1 के नमूने के आधार पर हमारे प्रतिगमन मापदंडों के लिए इष्टतम समाधान तुच्छ रूप से है या ∞ हक डोनर प्रभाव द्वारा। यह अच्छा नहीं है।
संपादित करें
@ डेल्टिव बताते हैं कि यह मिनी-बैच पर भी लागू होता है, न कि केवल व्यक्तिगत नमूनों पर।
ट्यूटोरियल क्रमिक वंश के बारे में संभवतः बात करते हैं क्योंकि यह अनुकूलन के लिए उपयोग किए जाने वाले सबसे सरल एल्गोरिदम में से एक है, इसलिए इसे समझाना आसान है। चूंकि इस तरह के अधिकांश ट्यूटोरियल संक्षिप्त हैं, वे साधारण सामान पर ध्यान केंद्रित करते हैं। सरल ढाल वंश से परे कम से कम कई लोकप्रिय अनुकूलन एल्गोरिदम हैं जो गहरी सीखने के लिए उपयोग किए जाते हैं। वास्तव में लोग अक्सर अलग-अलग एल्गोरिदम का उपयोग करते हैं, फिर क्रमिक वंश के बाद से वे आमतौर पर तेजी से परिवर्तित होते हैं। उनमें से कुछ के पास गैर-निरंतर सीखने की दर है (उदाहरण के लिए समय के साथ घटती है)। इस तरह के एल्गोरिदम की समीक्षा के लिए आप सेबेस्टियन रुडर (या arXived पेपर ) द्वारा ग्रेडिएंट डीसेंट ऑप्टिमाइज़ेशन एल्गोरिदम पोस्ट का अवलोकन देख सकते हैं ।