@Dikran Marsupial का जवाब बढ़ाते हुए…।
एनवाईयू में एना चोरोमांस्का और यान लेकन के समूह में उनके सहयोगियों ने 2014 के उनके एआईएसएटीएस पेपर "द लॉस सर्फेस ऑफ मल्टीलेयर नेट" में इसे संबोधित किया । यादृच्छिक मैट्रिक्स सिद्धांत का उपयोग करते हुए, कुछ प्रयोगों के साथ, उनका तर्क है कि:
बड़े आकार के नेटवर्क के लिए, अधिकांश स्थानीय मिनीमा बराबर हैं और परीक्षण सेट पर समान प्रदर्शन करते हैं।
"खराब" (उच्च मूल्य) स्थानीय न्यूनतम खोजने की संभावना छोटे आकार के नेटवर्क के लिए गैर-शून्य है और नेटवर्क आकार के साथ जल्दी से घट जाती है।
प्रशिक्षण सेट पर वैश्विक न्यूनतम खोजने के लिए संघर्ष (कई अच्छे स्थानीय लोगों में से एक के विपरीत) व्यवहार में उपयोगी नहीं है और इससे ओवरफिटिंग हो सकती है।
[कागज के पृष्ठ 2 से]
इस दृष्टि से, वैश्विक न्यूनतम खोजने के लिए भारी-वजन दृष्टिकोण को तैनात करने का एक बड़ा कारण नहीं है। नए नेटवर्क टोपोलॉजी, फीचर्स, डेटा सेट आदि को आजमाने में बेहतर होगा।
उस ने कहा, बहुत से लोगों ने SGD को बढ़ाने या बदलने के बारे में सोचा है। काफी छोटे नेटवर्क के लिए (समकालीन मानकों के अनुसार), ये बेहतर मेटाहॉर्स्टिक्स कुछ Mavrovouniotis और यांग (2016) दिखाते हैं कि चींटी कॉलोनी ऑप्टिमाइज़ेशन + बैकप्रॉप कई बेंचमार्क डेटा सेटों पर अनमॉडिफाइड बैकप्रॉप बनाती है (यद्यपि बहुत से नहीं)। रेर एल अल। (2015) एक CNN को प्रशिक्षित करने के लिए सिम्युलेटेड एनीलिंग का उपयोग करें और यह पता लगाएं कि शुरू में सत्यापन सेट पर बेहतर प्रदर्शन करता है। 10 युगों के बाद, हालांकि, प्रदर्शन में केवल एक बहुत छोटा (और परीक्षण नहीं किया गया-महत्व) अंतर रहता है। तेजी से अभिसरण-प्रति-युग लाभ भी प्रति युग प्रति गणना समय की नाटकीय रूप से बड़ी मात्रा में ऑफसेट होता है, इसलिए यह नकली annealing के लिए एक स्पष्ट जीत नहीं है।
यह संभव है कि ये आंकड़ें नेटवर्क को इनिशियलाइज़ करने का बेहतर काम करते हैं और एक बार इसे सही रास्ते पर ले जाने के बाद, कोई भी आशावादी करेगा। Sutskever एट अल। (2013) ज्योफ हिंटन के समूह ने अपने 2013 के ICML पेपर में कुछ इस तरह का तर्क दिया ।