पूरी तरह से जुड़ा हुआ (कम से कम परत के साथ 2 से अधिक छिपी हुई परतें) बैकप्रॉप नेटवर्क सार्वभौमिक शिक्षार्थी हैं। दुर्भाग्य से, वे अक्सर सीखने के लिए धीमा होते हैं और ओवर-फिट होते हैं या अजीब सामान्यीकरण होते हैं।
इन नेटवर्कों के साथ बेवकूफ बनाने से, मैंने देखा है कि कुछ किनारों को छंटनी (ताकि उनका वजन शून्य और बदलने में असंभव हो) नेटवर्क को तेजी से सीखने और बेहतर सामान्य बनाने के लिए जाता है। क्या इसका कोई कारण है? क्या यह केवल वेट सर्च स्पेस के आयाम में कमी के कारण है, या कोई और अधिक सूक्ष्म कारण है?
इसके अलावा, क्या बेहतर सामान्यीकरण 'प्राकृतिक' समस्याओं की एक कलाकृति है जिसे मैं देख रहा हूं?