यादृच्छिक संख्याओं के साथ न्यूरल नेटवर्क्स का वजन क्यों शुरू किया जाता है?

तंत्रिका नेटवर्क प्रारंभिक भारों को यादृच्छिक संख्याओं के रूप में क्यों आरंभ किया जाता है? मैंने कहीं पढ़ा था कि यह "समरूपता को तोड़ने" के लिए किया जाता है और इससे तंत्रिका नेटवर्क तेजी से सीखता है। समरूपता को तोड़ने से यह तेजी से कैसे सीखता है?

क्या 0 से वजन कम करना बेहतर विचार नहीं होगा? इस तरह वजन तेजी से अपने मूल्यों (चाहे सकारात्मक या नकारात्मक) को खोजने में सक्षम होगा?

क्या उम्मीद के अलावा वज़न को बेतरतीब करने के पीछे कुछ अन्य अंतर्निहित दर्शन हैं जो कि आरम्भ होने पर उनके इष्टतम मूल्यों के निकट होंगे?

machine-learning artificial-intelligence neural-networks

— शयन आरसी
स्रोत

वजन परतों को छोटे (और अलग-अलग) मूल्यों में आरम्भ करने के पीछे मूल अंतर्ज्ञान सिर्फ इतना है कि सिस्टम का पूर्वाग्रह टूट गया है और वजन मान अलग-अलग मूल्यों के साथ और दूर और आगे बढ़ सकते हैं।

अधिक संक्षेप में, आप शायद चाहते हैं कि आपके शुरुआती वज़न अलग-अलग हों और उनके बीच "एक छोटा सा गैप" हो, यह 'गैप' बाहर निकलता है क्योंकि आप साथ चलते हैं और वज़न को हर पुनरावृत्ति पर थोड़ा बड़ा होने के लिए मजबूर करते हैं, और इससे मदद मिलती है नेटवर्क तेजी से अभिसरण करने के लिए, अर्थात सीखने की प्रक्रिया में तेजी आती है।

यदि आप इसके बजाय अपने सभी वजन को कुछ स्थिर रखना चाहते हैं, तो प्रत्येक वजन को बहुत धीमी गति (~ निश्चित) दर पर अपडेट किया जाएगा, और यह बहुत मदद नहीं करेगा, खासकर यदि प्रारंभिक मान अंतिम मानों से बहुत दूर हैं।

आशा है कि मदद करता है, मज़ा सीखने :)

— Subhayan
स्रोत

तो आप जो कह रहे हैं वह प्रारंभिक वज़न को बेतरतीब कर रहा है, प्रत्येक भार को उस दिशा में एक कुहनी देने के बराबर है जिसे इसे स्थानांतरित करने की आवश्यकता है (और विस्तार करने के लिए अंतराल)।

— शायनन आरसी

मुझे नहीं लगता कि इसे सही दिशा में होने की आवश्यकता है, आप [-0.5, +0.5] के init वजन के साथ शुरू कर सकते हैं, जहां अंतिम मान [+0.5, -0.5] हो सकते हैं, मुख्य विचार हो रहा है विभिन्न मूल्य ..

— सुभायं

एनएन के साथ काम किए हुए एक साल से अधिक का समय हो गया है, इसलिए मैं हाथ में लहराते हुए बात कर रहा हूं, कृपया मुझे बताएं कि क्या आप इसके पीछे का गणित चाहते हैं। लेकिन मुझे लगता है कि यहाँ अंतर्ज्ञान प्राप्त करना अधिक महत्वपूर्ण है, गणित हर जगह बहुत अधिक उपलब्ध है .. :)

— सुभान

इसके पीछे का गणित सहायक होगा, लेकिन इससे भी अधिक उपयोगी कुछ व्यावहारिक सलाह होगी: जैसे प्रारंभिक वजन कितना छोटा होना चाहिए (10 ^?) वे विभिन्न प्रकार के नेटवर्क के लिए कैसे भिन्न होते हैं? क्या किसी तरह के मैजिक नंबर हैं जो सभी के लिए काम करते हैं?

— शयन आरसी