CNN में "कर्नेल" और "फ़िल्टर" के बीच अंतर

37

सजातीय तंत्रिका नेटवर्क के संदर्भ में "कर्नेल" और "फ़िल्टर" के बीच अंतर क्या है?

— ryguy
स्रोत

5

वह एक जैसे है! फ़िल्टर या कर्नेल वजन का सरल समूह है जो सभी इनपुट स्थान पर साझा किया गया है।

— yasin.yazici

42

दृढ़ तंत्रिका नेटवर्क के संदर्भ में, कर्नेल = फ़िल्टर = सुविधा डिटेक्टर।

यहां स्टैनफोर्ड के गहन शिक्षण ट्यूटोरियल ( डेनी ब्रिटज़ द्वारा अच्छी तरह से समझाया गया है ) से एक महान चित्रण है ।

फ़िल्टर पीली स्लाइडिंग विंडो है, और इसका मान है:

[\begin{matrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{matrix}]

$\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{bmatrix}$

— फ्रेंक डर्नोनकोर्ट
स्रोत

2

क्या फ़िल्टर का कोई विशिष्ट नाम है? "ब्लर" या "एज डिटेक्ट" की तरह

— प्रतीक खदलोया

2

@PratikKhadloya नहीं, उन नामों को शोधकर्ताओं द्वारा विषय के आधार पर दिया गया है जो फ़िल्टर का पता लगाने के लिए दिखाई देते हैं।

— छायाकार

1

@Frank Dernoncourt इस लिंक के अनुसार asdatascience.com/ ... ये तब अलग हैं जब हमारे पास कुछ चैनल हैं। वास्तव में जब कई चैनल होते हैं तो प्रत्येक फ़िल्टर वास्तव में गुठली का एक संग्रह होता है, जिसमें परत के हर एक इनपुट चैनल के लिए एक कर्नेल होता है, और प्रत्येक कर्नेल अद्वितीय होता है। मुझे आपके विचार पर खुशी होगी

— sariii

6

एक फीचर मैप इस विशेष संदर्भ में एक फिल्टर या "कर्नेल" के समान है। फ़िल्टर के वज़न यह निर्धारित करते हैं कि विशिष्ट विशेषताएं क्या हैं।

उदाहरण के लिए, फ्रेंक ने एक शानदार दृश्य प्रदान किया है। ध्यान दें कि उसके फिल्टर / फीचर-डिटेक्टर में विकर्ण तत्वों के साथ X1 और अन्य सभी तत्वों के साथ x0 है। इस प्रकार यह कर्नेल वेटिंग इमेज में पिक्सल का पता लगाएगा, जिसका इमेज के विकर्णों के साथ 1 का मान है।

ध्यान दें कि परिणामी रूप से सजाया गया फीचर 4 के मानों को दिखाता है जहाँ कहीं भी चित्र में 3x3 फ़िल्टर के विकर्ण मूल्यों के साथ "1" है (इस प्रकार छवि के उस विशिष्ट 3x3 अनुभाग में फ़िल्टर का पता लगाना), और 2 के क्षेत्रों में निम्न मान वह छवि जहाँ वह फ़िल्टर दृढ़ता से मेल नहीं खाता था।

— JohnnyUtah
स्रोत

4

$k \times k \times C$ $C$ $C$ $H_{in} \times H_{in} \times C$ $32 \times 32$ RGB छवि)। यह एक अलग शब्द का उपयोग करने के लिए समझ में आता है एक 2 डी सरणी का वजन और 3 डी संरचना के लिए एक अलग वजन का वर्णन करता है, क्योंकि गुणा 2 डी सरणियों के बीच होता है और फिर परिणाम 3 डी ऑपरेशन की गणना करने के लिए अभिव्यक्त किए जाते हैं।

वर्तमान में इस क्षेत्र में नामकरण के साथ एक समस्या है। एक ही चीज़ का वर्णन करने वाले कई शब्द हैं और यहां तक कि अलग-अलग अवधारणाओं के लिए परस्पर उपयोग किए गए शब्द भी हैं! एक उदाहरण के रूप में एक शब्दावली परत के उत्पादन का वर्णन करने के लिए इस्तेमाल की जाने वाली शब्दावली: फ़ीचर मैप, चैनल, एक्टिविटी, टेंसर, प्लेन, आदि ...

विकिपीडिया के आधार पर, "छवि प्रसंस्करण में, एक कर्नेल, एक छोटा मैट्रिक्स है"।

विकिपीडिया के आधार पर, "एक मैट्रिक्स पंक्तियों और स्तंभों में व्यवस्थित एक आयताकार सरणी है"।

$k_1 \times k_2 \times C$

ठीक है, मैं यह तर्क नहीं दे सकता कि यह सबसे अच्छी शब्दावली है, लेकिन यह केवल "कर्नेल" और "फ़िल्टर" शब्दों का उपयोग करने से बेहतर है। इसके अलावा, हमें फ़िल्टर बनाने वाले विशिष्ट 2D सरणियों की अवधारणा का वर्णन करने के लिए एक शब्द की आवश्यकता है।

— जिम
स्रोत

1

मौजूदा उत्तर उत्कृष्ट हैं और बड़े पैमाने पर प्रश्न का उत्तर देते हैं। बस यह जोड़ना चाहते हैं कि संपूर्ण नेटवर्क में फ़िल्टर पूरी छवि में साझा किए गए हैं (यानी, इनपुट फ़िल्टर के साथ सजाया गया है, जैसा कि फ्रेंक के उत्तर में कल्पना की गई है)। ग्रहणशील क्षेत्र एक विशेष न्यूरॉन के सभी इनपुट इकाइयों है कि प्रश्न में न्यूरॉन को प्रभावित कर रहे हैं। एक संवादी नेटवर्क में एक न्यूरॉन का ग्रहणशील क्षेत्र आम तौर पर साझा फिल्टर (जिसे पैरामीटर साझाकरण भी कहा जाता है ) के एक घने नेटवर्क शिष्टाचार में एक न्यूरॉन के ग्रहणशील क्षेत्र से छोटा होता है ।

पैरामीटर साझा करना CNNs पर एक निश्चित लाभ प्रदान करता है, अर्थात् एक संपत्ति जिसे अनुवाद करने के लिए संतुलन कहा जाता है । यह कहना है कि यदि इनपुट विकृत या अनुवादित है, तो आउटपुट भी उसी तरीके से संशोधित किया गया है। इयान गुडफेलो डीप लर्निंग बुक में एक बेहतरीन उदाहरण प्रदान करते हैं कि कैसे सीएनएन में चिकित्सकों को समीकरणों को भुनाने में मदद मिल सकती है:

समय-श्रृंखला डेटा को संसाधित करते समय, इसका मतलब है कि दृढ़ संकल्प एक प्रकार की समयावधि का उत्पादन करता है जो दिखाता है जब di-निर्माण की विशेषताएं इनपुट में दिखाई देती हैं। यदि हम इनपुट में समय के बाद किसी घटना को आगे बढ़ाते हैं, तो इसका सटीक प्रतिनिधित्व आउटपुट में दिखाई देगा। बस बाद में। इसी तरह छवियों के साथ, कनवल्शन 2-डी मैप बनाता है जहां इनपुट में कुछ विशेषताएं दिखाई देती हैं। यदि हम इनपुट में ऑब्जेक्ट को स्थानांतरित करते हैं, तो इसका प्रतिनिधित्व आउटपुट में समान राशि को स्थानांतरित करेगा। यह तब उपयोगी होता है जब हम जानते हैं कि कई इनपुट स्थानों पर लागू होने पर पड़ोसी पिक्सेल की थोड़ी संख्या के कुछ कार्य उपयोगी होते हैं। उदाहरण के लिए, जब छवियों को संसाधित करते हैं, तो एक संवेदी नेटवर्क के st rst परत में किनारों का पता लगाना उपयोगी होता है। छवि में हर जगह एक ही किनारा कम या ज्यादा दिखाई देता है, इसलिए संपूर्ण छवि में मापदंडों को साझा करना व्यावहारिक है।

— प्रणव वेम्पती
स्रोत