वास्तव में मुझे लगता है कि सवाल थोड़ा व्यापक है! वैसे भी।
समझौता नेट्स को समझना
ConvNets
वर्गीकरण कार्यों में इनपुटों को सही ढंग से वर्गीकृत करने के लिए लागत फ़ंक्शन को कम करने की कोशिशों में क्या सीखा गया है। उल्लिखित लक्ष्य को प्राप्त करने के लिए सभी पैरामीटर बदलते और सीखे हुए फिल्टर हैं।
अलग-अलग परतों में जानें सुविधाएँ
वे निम्न स्तर, कभी-कभी अर्थहीन, अपनी पहली परतों में क्षैतिज और ऊर्ध्वाधर लाइनों जैसी सुविधाओं को कम करने और फिर उन्हें सार आकार बनाने के लिए स्टैकिंग करने की कोशिश करते हैं, जिसका अर्थ अक्सर उनकी अंतिम परतों में होता है। इस अंजीर को दर्शाने के लिए। 1, जिसका उपयोग यहां से किया गया है , पर विचार किया जा सकता है। इनपुट बस है और पहली परत में विभिन्न फिल्टर के माध्यम से इनपुट को पारित करने के बाद गर्ड सक्रियण को दर्शाता है। जैसा कि यह देखा जा सकता है कि लाल फ्रेम जो एक फिल्टर की सक्रियता है, जो इसके मापदंडों को सीखा गया है, अपेक्षाकृत क्षैतिज किनारों के लिए सक्रिय किया गया है। नीला फ्रेम अपेक्षाकृत ऊर्ध्वाधर किनारों के लिए सक्रिय किया गया है। यह संभव है किConvNets
अज्ञात फ़िल्टर सीखें जो उपयोगी हैं और हम, जैसे कि कंप्यूटर विज़न चिकित्सकों ने यह नहीं पाया है कि वे उपयोगी हो सकते हैं। इन जालों का सबसे अच्छा हिस्सा यह है कि वे अपने द्वारा उपयुक्त फिल्टर खोजने की कोशिश करते हैं और हमारे सीमित खोज फिल्टर का उपयोग नहीं करते हैं। वे लागत फ़ंक्शन की मात्रा को कम करने के लिए फ़िल्टर सीखते हैं। जैसा कि उल्लेख किया गया है कि ये फ़िल्टर आवश्यक नहीं हैं।
गहरी परतों में, पिछली परतों में सीखी गई विशेषताएं एक साथ आती हैं और आकार बनाती हैं जिसका अक्सर अर्थ होता है। इस पत्र में इस बात पर चर्चा की गई है कि इन परतों में सक्रियता हो सकती है जो हमारे लिए सार्थक हैं या जिन अवधारणाओं का अर्थ हमारे लिए है, मनुष्य के रूप में, उन्हें अन्य गतिविधियों के बीच वितरित किया जा सकता है। अंजीर में। 2 हरे रंग का फ्रेम एक परत की पांचवीं परत में एक फिल्टर के सक्रियण को दर्शाता हैConvNet
। यह फिल्टर चेहरों की परवाह करता है। मान लीजिए कि लाल बालों की परवाह करता है। इनका अर्थ है। जैसा कि देखा जा सकता है कि अन्य सक्रियण हैं जो इनपुट में विशिष्ट चेहरों की स्थिति में सक्रिय हैं, हरे फ्रेम उनमें से एक है; नीला फ्रेम इनका एक और उदाहरण है। तदनुसार, आकार का अमूर्त एक फिल्टर या कई फिल्टर द्वारा सीखा जा सकता है। दूसरे शब्दों में, प्रत्येक अवधारणा, जैसे चेहरा और उसके घटक, फ़िल्टर के बीच वितरित किए जा सकते हैं। ऐसे मामलों में जहां अवधारणाओं को विभिन्न परतों के बीच वितरित किया जाता है, अगर कोई उनमें से प्रत्येक को देखता है, तो वे परिष्कृत हो सकते हैं। जानकारी उनके बीच वितरित की जाती है और उस जानकारी को समझने के लिए उन सभी फ़िल्टर और उनकी गतिविधियों पर विचार करना पड़ता है, हालांकि वे इतने जटिल लग सकते हैं।
CNNs
ब्लैक बॉक्स के रूप में नहीं माना जाना चाहिए। इस अद्भुत पेपर में Zeiler et all ने चर्चा की है कि बेहतर मॉडल के विकास को परीक्षण और त्रुटि के लिए कम कर दिया जाता है यदि आपको इन नेट के अंदर क्या किया जाता है, इसकी समझ नहीं है। यह पेपर फीचर मैप्स में कल्पना करने की कोशिश करता है ।ConvNets
सामान्य करने के लिए विभिन्न परिवर्तनों को संभालने की क्षमता
ConvNets
pooling
परतों का उपयोग न केवल मापदंडों की संख्या को कम करने के लिए, बल्कि प्रत्येक सुविधा की सटीक स्थिति के लिए असंवेदनशील होने की क्षमता भी है। साथ ही उनका उपयोग परतों को विभिन्न विशेषताओं को सीखने में सक्षम बनाता है, जिसका अर्थ है कि पहली परतें किनारों या चाप जैसी सरल निम्न स्तर की विशेषताओं को सीखती हैं, और गहरी परतें आंखों या भौहों जैसी अधिक जटिल विशेषताएं सीखती हैं। Max Pooling
उदाहरण यह जांचने की कोशिश करता है कि एक विशेष क्षेत्र में एक विशेष सुविधा मौजूद है या नहीं। pooling
परतों का विचार इतना उपयोगी है लेकिन यह अन्य परिवर्तनों के बीच संक्रमण को संभालने में सक्षम है। यद्यपि विभिन्न परतों में फ़िल्टर विभिन्न पैटर्न खोजने की कोशिश करते हैं, उदाहरण के लिए एक घुमाया हुआ चेहरा सामान्य चेहरे की तुलना में विभिन्न परतों का उपयोग करके सीखा जाता है,CNNs
स्वयं के पास अन्य परिवर्तनों को संभालने के लिए कोई परत नहीं है। यह मान लेने के लिए कि आप न्यूनतम नेट के साथ किसी भी घुमाव के बिना सरल चेहरे सीखना चाहते हैं। इस मामले में आपका मॉडल पूरी तरह से ऐसा कर सकता है। मान लीजिए कि आपको मनमाने ढंग से चेहरे को घुमाने के साथ सभी तरह के चेहरे सीखने के लिए कहा जाता है। इस मामले में आपके मॉडल को पिछले सीखे हुए नेट की तुलना में बहुत अधिक बड़ा होना चाहिए। कारण यह है कि इनपुट में इन घुमावों को सीखने के लिए फ़िल्टर होना चाहिए। दुर्भाग्य से ये सभी परिवर्तन नहीं हैं। आपका इनपुट भी विकृत हो सकता है। इन मामलों ने मैक्स जादेरबर्ग एट को सभी नाराज कर दिया। इन समस्याओं से निपटने के लिए उन्होंने इस कागज़ की रचना की ताकि हमारा गुस्सा उनका हो सके।
संवैधानिक तंत्रिका नेटवर्क काम करते हैं
अंत में इन बिंदुओं का उल्लेख करने के बाद, वे काम करते हैं क्योंकि वे इनपुट डेटा में पैटर्न खोजने की कोशिश करते हैं। वे उन्हें दृढ़ संकल्पना परतों द्वारा अमूर्त अवधारणाएँ बनाने के लिए ढेर लगाते हैं। वे यह पता लगाने की कोशिश करते हैं कि इनपुट डेटा में इनमें से प्रत्येक अवधारणा है या नहीं, घने परतों में यह पता लगाने के लिए कि इनपुट डेटा किस वर्ग का है।
मैं कुछ लिंक जोड़ता हूं जो मददगार हैं: