मैं कुछ समय से तंत्रिका नेटवर्क का उपयोग कर रहा हूं। हालांकि, एक चीज जो मैं लगातार संघर्ष करता हूं वह है नेटवर्क के प्रशिक्षण के लिए एक अनुकूलक का चयन (बैकप्रॉप का उपयोग करके)। आमतौर पर मैं जो करता हूं वह केवल एक (उदाहरण के लिए मानक SGD) के साथ शुरू होता है और फिर दूसरे को बहुत अधिक यादृच्छिक रूप से आज़माता है। मैं सोच रहा था कि इस सूची में से एक अच्छा अनुकूलक खोजने के लिए एक बेहतर (और कम यादृच्छिक) दृष्टिकोण है, जैसे:
- SGD (गति के साथ या बिना)
- AdaDelta
- AdaGrad
- RMSProp
- एडम
विशेष रूप से, मुझे दिलचस्पी है अगर किसी को प्रशिक्षण डेटा दिए जाने के लिए कुछ सैद्धांतिक औचित्य है, तो कुछ संपत्ति है, जैसे कि यह विरल है। मैं यह भी कल्पना करूंगा कि कुछ ऑप्टिमाइज़र विशिष्ट डोमेन में दूसरों की तुलना में बेहतर काम करते हैं, उदाहरण के लिए, जब कॉनटेक्शनल नेटवर्क बनाम फीड-फ़ॉरवर्ड नेटवर्क या क्लासिफिकेशन डिप्रेशन का प्रशिक्षण दिया जाता है।
यदि आप में से किसी ने ऑप्टिमाइज़र चुनने के बारे में कुछ रणनीति और / या अंतर्ज्ञान विकसित किया है, तो मुझे इसे सुनने में बहुत दिलचस्पी होगी। इसके अलावा, अगर कोई काम है जो एक को दूसरे पर लेने के लिए सैद्धांतिक औचित्य प्रदान करता है, तो यह और भी बेहतर होगा।