डीप लर्निंग में 1D कन्वेंशनल लेयर क्या है?


13

मुझे 2D या 3D कार्यान्वयन के मामले में इमेज प्रोसेसिंग के लिए डीप लर्निंग में भूमिका की परतों की एक अच्छी समझ है - वे "बस" छवियों में 3 डी पैटर्न (3 डी के मामले में चैनलों) को पकड़ने की कोशिश करते हैं।

लेकिन हाल ही में मैं नेचुरल लैंग्वेज प्रोसेसिंग के संदर्भ में 1 डी कंसिस्टेंट लेयर्स में टकरा गया, जो मेरे लिए एक प्रकार का आश्चर्य है, क्योंकि मेरी समझ में 2 डी कन्वेंशन विशेष रूप से 2 डी पैटर्न को पकड़ने के लिए उपयोग किया जाता है, जो 1 डी (वेक्टर) रूप में प्रकट करना असंभव है छवि पिक्सेल की। 1D सजा के पीछे क्या तर्क है?

जवाबों:


16

संक्षेप में, दृढ़ संकल्प के लिए आयामों की संख्या के बारे में कुछ खास नहीं है। किसी भी समस्या को हल करने पर दृढ़ विश्वास की किसी भी आयाम पर विचार किया जा सकता है।

आयामों की संख्या समस्या के हल होने का गुण है। उदाहरण के लिए, ऑडियो संकेतों के लिए 1 डी, छवियों के लिए 2 डी, फिल्मों के लिए 3 डी। । ।

कुछ प्रकार के डेटा के साथ काम करते समय, पूर्ण रूप से जुड़े मॉडल की तुलना में, संक्षेप में आयामों की संख्या को ध्यान में रखते हुए, एक दृढ़ तंत्रिका नेटवर्क (CNN) की ताकत मानी जा सकती है :

  1. पूरी तरह से जुड़े नेटवर्क के माध्यम से संसाधित किए गए एक ही डेटा की तुलना में, प्रत्येक स्थान के लिए साझा वजन का उपयोग, जो कि कन्वेंशन प्रक्रियाएं उन मापदंडों की संख्या को काफी कम करती हैं, जिन्हें सीखने की आवश्यकता होती है।

  2. साझा वजन नियमितीकरण का एक रूप है।

  3. एक दृढ़ मॉडल की संरचना डेटा में स्थानीय रिश्तों के बारे में मजबूत धारणाएं बनाती है, जो सच होने पर समस्या के लिए एक अच्छा फिट बनाती है।

    3.1 स्थानीय पैटर्न अच्छा भविष्य कहनेवाला डेटा प्रदान करते हैं (और / या उपयोगी रूप से इसे उच्चतर परतों में अधिक जटिल भविष्य कहनेवाला पैटर्न में जोड़ा जा सकता है)

    3.2 डेटा में पाए जाने वाले पैटर्न के प्रकार कई स्थानों पर पाए जा सकते हैं। डेटा बिंदुओं के एक अलग सेट में एक ही पैटर्न खोजना सार्थक है।

CNN के ये गुण आयामों की संख्या से स्वतंत्र हैं। एक आयामी सीएनएन एक आयाम में पैटर्न के साथ काम करते हैं, और निश्चित लंबाई के संकेतों पर सिग्नल विश्लेषण में उपयोगी होते हैं। उदाहरण के लिए, वे ऑडियो सिग्नल के विश्लेषण के लिए अच्छी तरह से काम करते हैं। इसके अलावा कुछ प्राकृतिक भाषा प्रसंस्करण के लिए - हालांकि आवर्तक तंत्रिका नेटवर्क, जो अलग-अलग अनुक्रम लंबाई के लिए अनुमति देते हैं, वहां एक बेहतर फिट हो सकता है, विशेष रूप से मेमोरी गेट व्यवस्था जैसे एलएसटीएम या जीआरयू के साथ। फिर भी एक CNN को प्रबंधित करना आसान हो सकता है, और आप निश्चित लंबाई होने के लिए इनपुट को बस पैड कर सकते हैं।


केवल स्केल छवियों के लिए 2 डी है? जब आप RGB शुरू करते हैं तो क्या होता है?
मोहम्मद अतहर

1
@ मोहम्मदअथर: आरजीबी को अलग-अलग 2 डी सूचनाओं के चैनल (या फीचर मैप ) के रूप में दर्शाया जाता है , और आमतौर पर एनबीसीसी परतों का वर्णन करते समय 2 डी भी माना जाता है। यदि आप TensorFlow या Keras का उपयोग कर रहे थे, तो आप निश्चित रूप से रंग चित्रों को संभालने के लिए एक Conv2D परत परिभाषा का उपयोग करेंगे। हालांकि, कार्यान्वयन में अक्सर 3 डी और 4 डी संरचनाएं होती हैं जो वजन को कम करने के लिए आंतरिक रूप से होती हैं। । । और कई चैनलों में 2 डी कनवल्शन प्रभावी रूप से गणितीय रूप से 3 डी कनविक्शन का एक विशेष मामला है (जहां इनपुट और कर्नेल आयाम अंतिम परत के लिए मेल खाना चाहिए)। तो यह एक नामकरण सम्मेलन जितना कुछ भी है।
नील स्लेटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.