तंत्रिका नेटवर्क प्रारंभिक भारों को यादृच्छिक संख्याओं के रूप में क्यों आरंभ किया जाता है? मैंने कहीं पढ़ा था कि यह "समरूपता को तोड़ने" के लिए किया जाता है और इससे तंत्रिका नेटवर्क तेजी से सीखता है। समरूपता को तोड़ने से यह तेजी से कैसे सीखता है?
क्या 0 से वजन कम करना बेहतर विचार नहीं होगा? इस तरह वजन तेजी से अपने मूल्यों (चाहे सकारात्मक या नकारात्मक) को खोजने में सक्षम होगा?
क्या उम्मीद के अलावा वज़न को बेतरतीब करने के पीछे कुछ अन्य अंतर्निहित दर्शन हैं जो कि आरम्भ होने पर उनके इष्टतम मूल्यों के निकट होंगे?