काफी उचित डेटा सामान्यीकरण को मानते हुए, वेट की उम्मीद शून्य या इसके करीब होनी चाहिए। यह उचित हो सकता है, फिर, सभी प्रारंभिक वजन को शून्य पर सेट करने के लिए क्योंकि एक सकारात्मक प्रारंभिक वजन आगे जाना होगा अगर यह वास्तव में नकारात्मक वजन और वीजा वर्सा होना चाहिए। हालांकि, यह काम नहीं करता है। यदि सभी भार समान हैं, तो उन सभी में एक ही त्रुटि होगी और मॉडल कुछ भी नहीं सीखेगा - न्यूरॉन्स के बीच विषमता का कोई स्रोत नहीं है।
इसके बजाय हम जो कर सकते थे, वह यह है कि वज़न को शून्य के बहुत करीब रखा जाए, लेकिन उन्हें छोटे, गैर-शून्य नंबरों से आरंभ करके अलग बनाया जाए। यह वही है जो आपके द्वारा लिंक किए गए ट्यूटोरियल में सुझाया गया है। इसमें ऑल-जीरो इनिशियलाइज़ेशन का समान लाभ है कि यह 'सर्वश्रेष्ठ अनुमान' उम्मीद के मूल्य के करीब है, लेकिन एल्गोरिथम को काम करने के लिए समरूपता को भी तोड़ दिया गया है।
इस दृष्टिकोण में अतिरिक्त समस्याएं हैं। यह जरूरी नहीं है कि छोटी संख्या बेहतर काम करेगी, खासकर अगर तंत्रिका नेटवर्क गहरा हो। बैकप्रोपेगैनेशन में गणना किए गए ग्रेडिएंट वजन के अनुपात में हैं; बहुत छोटे वजन बहुत छोटे ग्रेडिएंट्स को जन्म देते हैं और नेटवर्क को बहुत आगे ले जा सकते हैं, बहुत लंबे समय तक प्रशिक्षण या कभी पूरा नहीं करने के लिए।
s क्षआर टी ( डी))घ[ - १घ√, १घ√]