स्टैक्ड कंफ्यूजनल ऑटोकेनोडर का आर्किटेक्चर क्या है?


23

तो मैं मनुष्यों की छवियों पर प्रचलित करने की कोशिश कर रहा हूं, जो कि संकेतन जाल का उपयोग कर रही हैं। मैं कागज (पेपर 1 और पेपर 2 ) और इस स्टैकओवरफ्लो लिंक को पढ़ता हूं, लेकिन मुझे यकीन नहीं है कि मैं नेट की संरचना को समझ रहा हूं (यह कागजों में अच्छी तरह से परिभाषित नहीं है)।

प्रशन:

  • मैं अपने इनपुट के बाद एक शोर परत द्वारा पीछा कर सकते हैं, एक परत के बाद परत, उसके बाद एक पूलिंग परत - वहाँ के बाद - क्या मैं अपना उत्पादन देने से पहले डी-पूल करता हूं (जो कि मेरी इनपुट छवि है)?

    मान लें कि मेरे पास कई (135,240) चित्र हैं। अगर मैं 32, (12,21) गुठली का उपयोग करता हूं, उसके बाद (2,2) पूलिंग करता हूं, तो मैं 32 (62, 110) फीचर मैप के साथ समाप्त हो जाऊंगा। अब क्या मैं 32 (124, 220) फ़ीचर मैप प्राप्त करने और फिर उन्हें समतल करने के लिए डी-पूल कर रहा हूँ? मेरे (135,240) उत्पादन परत देने से पहले?

  • अगर मेरे पास कई ऐसे कन्वेन्शन-पूल लेयर हैं, तो क्या मुझे उन्हें एक-एक करके प्रशिक्षित करना चाहिए - जैसे स्टैक्ड डीनॉइज्ड ऑटोएन्कोडर्स में? या - क्या मेरे पास इनपुट-कन्वेन्शन-पूल-कन्वेन्शन-पूल-कन्वेन्शन-पूल-आउटपुट (इनपुट जैसा ही आउटपुट) है? उस स्थिति में, पूलिंग, डिपोलिंग को कैसे प्रबंधित किया जाना चाहिए? क्या मुझे आउटपुट से पहले अंतिम पूल परत में केवल डी-पूल करना चाहिए? और फिर से - उस डी-पूलिंग का आकार बदलने वाला कारक क्या होना चाहिए? क्या इनपुट के आकार में फीचर मैप्स को वापस लाने का इरादा है?

  • क्या मुझे हर कन्ट्रोवर्सीज़-डिपो लेयर के बाद नॉइज़ लेयर्स की शुरुआत करनी चाहिए?

  • और फिर जब ठीक ट्यूनिंग - क्या मैं सिर्फ डी-पूलिंग परतों को हटाने और बाकी को वही छोड़ने वाला हूं। या मुझे शोर की परतों और डी-पूलिंग परतों दोनों को हटा देना चाहिए

  • क्या कोई मुझे एक url / पेपर पर इंगित कर सकता है, जिसने छवियों के लिए पूर्व प्रशिक्षण करने के लिए इस तरह के स्टैक्ड कंफ्यूज़नल ऑटो एनकोडर की वास्तुकला को विस्तृत किया है?

जवाबों:


12

मैं वर्तमान में स्टैक्ड-कॉन्फिडेंशियल ऑटोएन्कोडर्स की खोज कर रहा हूं।

मैं आपके कुछ सवालों के जवाब देने की कोशिश करूंगा और अपने ज्ञान का सर्वश्रेष्ठ उपयोग करूंगा। ध्यान रहे, मैं गलत हो सकता हूं इसलिए इसे नमक के दाने के साथ लें।

  1. हां, आपको अपनी आउटपुट छवि को पुनः प्राप्त करने के लिए फिल्टर के एक सेट के साथ "रिवर्स" पूल करना होगा। एक मानक तंत्रिका नेटवर्क (इनपुट के रूप में MNIST डेटा पर विचार करना, यानी 28x28 इनपुट आयाम) होगा:

        28x28(input) -- convolve with 5 filters, each filter 5x5 -->  5 @ 28 x 28 maps -- maxPooling --> 5 @ 14 x 14 (Hidden layer) -- reverse-maxPool --> 5 @ 28 x 28 -- convolve with 5 filters, each filter 5x5 --> 28x28 (output)
    
  2. मेरी समझ यह है कि परंपरागत रूप से यही है कि किसी को क्या करना चाहिए, अर्थात प्रत्येक परत को अलग से प्रशिक्षित करना चाहिए। उसके बाद आप परतों को ढेर करते हैं और पहले से प्रशिक्षित वजन का उपयोग करके एक बार फिर पूरे नेटवर्क को प्रशिक्षित करते हैं। हालाँकि, योहुस्सा बेंगियो के पास कुछ शोध है (संदर्भ मेरी स्मृति से बच जाता है) यह दिखाते हुए कि कोई पूरी तरह से स्टैक्ड नेटवर्क और खरोंच से ट्रेन बना सकता है।

  3. मेरी समझ यह है कि "शोर परत" इनपुट में मजबूती / परिवर्तनशीलता का परिचय देने के लिए है ताकि प्रशिक्षण ओवरफिट न हो।

  4. जब तक आप अभी भी "प्रशिक्षण" पूर्व-प्रशिक्षण या फाइन-ट्यूनिंग कर रहे हैं, मुझे लगता है कि पुनर्निर्माण हिस्सा (यानी रिवर्सपूलिंग, डी-कन्वेंशन आदि) निरर्थक है। अन्यथा किसी को वजन कम करने के लिए त्रुटि-बैक-प्रसार कैसे करना चाहिए?

  5. मैंने कई पत्रों के माध्यम से ब्राउज़ करने की कोशिश की है, लेकिन वास्तुकला को कभी भी पूर्ण रूप से समझाया नहीं गया है। यदि आपको कोई मिल जाए तो कृपया मुझे बताएं।


यदि आप पूर्व प्रशिक्षण के साथ कर रहे हैं, तो आपको अब डिकोडर भाग की आवश्यकता नहीं है, और ठीक ट्यूनिंग अभी भी एनकोडर को समायोजित करेगा, इस बार बेहतर वर्गीकरण के लिए।
ज्वालामुखी

2
"रिवर्स-मैक्सपूल" कैसे संभव है? आप कभी भी केवल अधिकतम दिए गए संख्याओं के समूह को फिर से संगठित नहीं कर सकते हैं ...?
फुकिश

1
@ फॉलिश, इसका एक अनुमानित रिवर्स-मैक्सपूल उदाहरण: यदि पूल = 2x2, तो मैं अधिकतम की स्थिति को बनाए रखता हूं और अधिकतम को 2x2 में उस विशेष स्थिति में सम्मिलित करता
हूं

1
@jwalker, मेरा अंत लक्ष्य वर्गीकरण नहीं था इसलिए एक
अनियंत्रित

@ सामान्य, रिवर्स को डिकोड करने के उद्देश्य के लिए सिर्फ एक निकटतम पड़ोसी अपस्केल है।
jwalker

2

मैं पूरी तरह से स्टैक्ड कॉन्फिडेंशियल ऑटोएन्कोडर्स के समझाए गए मॉडल की भी खोज कर रहा हूं।

मैं तीन अलग-अलग आर्किटेक्चर में आया। मैं अभी भी उनका अध्ययन कर रहा हूं और मुझे लगा कि ये दूसरों की मदद कर सकते हैं जो सीएई का पता लगाने के लिए शुरू कर रहे हैं। कागजात या कार्यान्वयन के किसी भी संदर्भ से काफी मदद मिलेगी।

  1. पूलिंग का उपयोग करते हुए आपके द्वारा उल्लेखित - अनप्लगिंग।
  2. की परतें (दी गई) __ x_times -> (deconvolve) __ x_times,

    और इनपुट के समान आकार प्राप्त करें।

  3. (convolve -> पूल) __ x_times -> (तारित विघटन) __ y_times
    • पैडिंग और स्ट्राइड्स को ऐसे चुना जाता है कि अंतिम छवि का आकार मूल छवि के समान हो।
    • संदर्भ

2
साइट पर आपका स्वागत है। क्या यह ओपी के सवाल के जवाब के रूप में किया गया था, ओपी से स्पष्टीकरण मांगने वाली टिप्पणी या जवाब देने वालों में से एक, या आपके खुद के एक नए सवाल का जवाब? कृपया मूल प्रश्न के उत्तर प्रदान करने के लिए केवल "आपका उत्तर" फ़ील्ड का उपयोग करें। आपकी प्रतिष्ठा> 50 होने पर आप कहीं भी टिप्पणी कर सकेंगे। यदि आपके पास कोई नया प्रश्न है, ASK QUESTION तो पृष्ठ के शीर्ष पर स्थित ग्रे पर क्लिक करें और वहां पूछें, तो हम आपकी उचित सहायता कर सकते हैं। चूंकि आप यहां नए हैं, इसलिए आप हमारे दौरे को ले सकते हैं , जिसमें नए उपयोगकर्ताओं के लिए जानकारी है।
गुंग - को पुनः स्थापित मोनिका

1
यह ओपी के सवाल के जवाब के रूप में इरादा था, हालांकि यह एक पूर्ण उत्तर होने के लिए योग्य नहीं हो सकता है। मैं पिछले भाग का जवाब दे रहा था 'मैंने कई पत्रों के माध्यम से ब्राउज़ करने की कोशिश की है, लेकिन वास्तुकला को कभी भी पूरा नहीं बताया गया है। अगर आपको कोई मिल जाए तो कृपया मुझे बताएं। '
अंकित डिक

ठीक है धन्यवाद। जिस तरह से यह आता है वह अस्पष्ट है। उदाहरण के लिए "मैं भी खोज रहा हूं ..." और "कागजात या कार्यान्वयन के लिए कोई भी संदर्भ बहुत मदद करेगा"। विदित हो कि CV एक शुद्ध Q & A साइट है, चर्चा मंच नहीं। हमारे दौरे क्यों न लें और साइट के बारे में अधिक जानें?
गुंग - को पुनः स्थापित मोनिका

-1

मुझे नहीं लगता कि लेयर-वाइज ट्रेनिंग का तरीका सही है। उदाहरण के लिए, दृढ़ ऑटो-एनकोडर की वास्तुकला है:

इनपुट-> conv-> max_poo-> de_max_pool-> de_conv-> उत्पादन।

यह एक ऑटो-एनकोडर है, और इसे पूरी वास्तुकला के साथ प्रशिक्षित किया जाना चाहिए। इसके अलावा, कोई भी सख्त मानदंड नहीं है कि क्या एक दृढ़ ऑटो-एनकोडर को पूल और अन_पूल की आवश्यकता है। आमतौर पर, एक पूल लेकिन बिना अनपूल के। यहाँ पूल और un_pool की अनुपस्थिति के साथ एक प्रयोगात्मक तुलना है।

https://arxiv.org/pdf/1701.04949.pdf

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.