सबसे पहले, कुछ एल्गोरिदम शून्य प्रारंभिक भार के साथ भी अभिसरण करते हैं। एक सरल उदाहरण एक रैखिक पर्सेप्ट्रॉन नेटवर्क है। बेशक, कई सीखने वाले नेटवर्क को यादृच्छिक प्रारंभिक भार की आवश्यकता होती है (हालांकि यह सबसे तेज़ और सर्वश्रेष्ठ होने की गारंटी नहीं है उत्तर )।
तंत्रिका नेटवर्क वजन को जानने और अद्यतन करने के लिए बैक-प्रचार का उपयोग करते हैं, और समस्या यह है कि इस विधि में, वज़न स्थानीय इष्टतम (स्थानीय न्यूनतम लागत / हानि) में परिवर्तित होता है , न कि वैश्विक इष्टतम में।
रैंडम वेटिंग नेटवर्क को उपलब्ध स्थान में प्रत्येक दिशा के लिए मौके लेने में मदद करता है और धीरे-धीरे बेहतर उत्तर पर पहुंचने के लिए उन्हें सुधारता है और एक दिशा या उत्तर तक सीमित नहीं होता है ।
[नीचे दी गई छवि अभिसरण का एक आयामी उदाहरण दिखाती है। प्रारंभिक स्थान को देखते हुए, स्थानीय अनुकूलन प्राप्त किया जाता है, लेकिन वैश्विक अनुकूलन नहीं। उच्च आयामों पर, यादृच्छिक भार सही जगह पर होने या बेहतर शुरू होने की संभावना को बढ़ा सकते हैं, जिसके परिणामस्वरूप वजन को बेहतर मूल्यों में परिवर्तित कर सकते हैं।] [१]
[१]: https://i.stack.imgur.com/2dioT.png [कलहोर, ए। (२०२०)। वर्गीकरण और प्रतिगमन एनएन। भाषण।]
सबसे सरल मामले में, नया वजन इस प्रकार है:
W_new = W_old + D_loss
यहाँ लागत समारोह ढाल एक नया वजन पाने के लिए पिछले वजन में जोड़ा जाता है। यदि सभी पिछले वजन समान हैं, तो अगले चरण में सभी वजन समान हो सकते हैं। नतीजतन, इस मामले में, ज्यामितीय दृष्टिकोण से, तंत्रिका नेटवर्क एक दिशा में झुका हुआ है और सभी वजन समान हैं। लेकिन अगर वेट अलग हैं, तो वेट को अलग-अलग मात्रा में अपडेट करना संभव है। (प्रभाव कारक के आधार पर कि प्रत्येक वजन का परिणाम होता है, यह लागत और भार के अपडेट को प्रभावित करता है। इसलिए प्रारंभिक यादृच्छिक भार में एक छोटी सी त्रुटि भी हल की जा सकती है)।
यह एक बहुत ही सरल उदाहरण था, लेकिन यह सीखने पर यादृच्छिक भारोत्तोलन के प्रभाव को दर्शाता है। यह तंत्रिका नेटवर्क को एक तरफ जाने के बजाय विभिन्न स्थानों पर जाने में सक्षम बनाता है। नतीजतन, सीखने की प्रक्रिया में, इन स्थानों में से सबसे अच्छा करने के लिए जाओ