मैं कंप्यूटर दृष्टि में उनके अनुप्रयोगों के कारण दृढ़ तंत्रिका नेटवर्क (CNNs) का अध्ययन कर रहा हूं। मैं पहले से ही मानक फीड-फॉवर्ड न्यूरल नेटवर्क से परिचित हूं, इसलिए मुझे उम्मीद है कि यहां के कुछ लोग सीएनएन को समझने में अतिरिक्त कदम उठाने में मेरी मदद कर सकते हैं। यहाँ मैं सीएनएन के बारे में क्या सोचता हूँ:
- पारंपरिक फीड-फ़ॉवर्ड एनएन में, हमारे पास प्रशिक्षण डेटा होता है, जहां प्रत्येक तत्व में एक विशेषता वेक्टर होता है जिसे हम "इनपुट लेयर" में एनएन पर इनपुट करते हैं, इसलिए छवि मान्यता के साथ, हम बस प्रत्येक पिक्सेल का एक इनपुट हो सकते हैं। वे हमारे फीचर वैक्टर हैं। वैकल्पिक रूप से, हम मैन्युअल रूप से अन्य - छोटे फीचर वैक्टर बना सकते हैं।
- सीएनएन का लाभ यह है कि यह मजबूत फीचर वैक्टर उत्पन्न कर सकता है जो छवि विरूपण और स्थिति के लिए अधिक अपरिवर्तनीय हैं। जैसा कि निम्न छवि दिखाता है (से) इस ट्यूटोरियल से ) के रूप में, सीएनएन ने फीचर मैप तैयार किए हैं जो तब एक मानक तंत्रिका नेटवर्क (इसलिए वास्तव में यह एक विशाल पूर्व-प्रसंस्करण कदम है) को खिलाया जाता है।
- जिस तरह से हम उन "बेहतर" सुविधाओं को बारी-बारी से दृढ़ संकल्प और उप-नमूना द्वारा प्राप्त करते हैं। मैं समझता हूं कि उप-नमूना कैसे काम करता है। प्रत्येक फ़ीचर मैप के लिए, बस पिक्सेल का एक सबसेट लें, या हम पिक्सेल के मूल्यों को औसत कर सकते हैं।
लेकिन जिस बात पर मैं मुख्य रूप से भ्रमित हूं, वह यह है कि कन्वेंशन स्टेप कैसे काम करता है। मैं प्रायिकता सिद्धांत (दो यादृच्छिक चर के योग के लिए घनत्व) के संकल्पों से परिचित हूं, लेकिन वे सीएनएन में कैसे काम करते हैं, और वे प्रभावी क्यों हैं?
मेरा प्रश्न इसके समान है , लेकिन विशेष रूप से, मुझे यकीन नहीं है कि पहला दृढ़ संकल्प कदम क्यों काम करता है।