तो मैं मनुष्यों की छवियों पर प्रचलित करने की कोशिश कर रहा हूं, जो कि संकेतन जाल का उपयोग कर रही हैं। मैं कागज (पेपर 1 और पेपर 2 ) और इस स्टैकओवरफ्लो लिंक को पढ़ता हूं, लेकिन मुझे यकीन नहीं है कि मैं नेट की संरचना को समझ रहा हूं (यह कागजों में अच्छी तरह से परिभाषित नहीं है)।
प्रशन:
मैं अपने इनपुट के बाद एक शोर परत द्वारा पीछा कर सकते हैं, एक परत के बाद परत, उसके बाद एक पूलिंग परत - वहाँ के बाद - क्या मैं अपना उत्पादन देने से पहले डी-पूल करता हूं (जो कि मेरी इनपुट छवि है)?
मान लें कि मेरे पास कई (135,240) चित्र हैं। अगर मैं 32, (12,21) गुठली का उपयोग करता हूं, उसके बाद (2,2) पूलिंग करता हूं, तो मैं 32 (62, 110) फीचर मैप के साथ समाप्त हो जाऊंगा। अब क्या मैं 32 (124, 220) फ़ीचर मैप प्राप्त करने और फिर उन्हें समतल करने के लिए डी-पूल कर रहा हूँ? मेरे (135,240) उत्पादन परत देने से पहले?
अगर मेरे पास कई ऐसे कन्वेन्शन-पूल लेयर हैं, तो क्या मुझे उन्हें एक-एक करके प्रशिक्षित करना चाहिए - जैसे स्टैक्ड डीनॉइज्ड ऑटोएन्कोडर्स में? या - क्या मेरे पास इनपुट-कन्वेन्शन-पूल-कन्वेन्शन-पूल-कन्वेन्शन-पूल-आउटपुट (इनपुट जैसा ही आउटपुट) है? उस स्थिति में, पूलिंग, डिपोलिंग को कैसे प्रबंधित किया जाना चाहिए? क्या मुझे आउटपुट से पहले अंतिम पूल परत में केवल डी-पूल करना चाहिए? और फिर से - उस डी-पूलिंग का आकार बदलने वाला कारक क्या होना चाहिए? क्या इनपुट के आकार में फीचर मैप्स को वापस लाने का इरादा है?
क्या मुझे हर कन्ट्रोवर्सीज़-डिपो लेयर के बाद नॉइज़ लेयर्स की शुरुआत करनी चाहिए?
और फिर जब ठीक ट्यूनिंग - क्या मैं सिर्फ डी-पूलिंग परतों को हटाने और बाकी को वही छोड़ने वाला हूं। या मुझे शोर की परतों और डी-पूलिंग परतों दोनों को हटा देना चाहिए
क्या कोई मुझे एक url / पेपर पर इंगित कर सकता है, जिसने छवियों के लिए पूर्व प्रशिक्षण करने के लिए इस तरह के स्टैक्ड कंफ्यूज़नल ऑटो एनकोडर की वास्तुकला को विस्तृत किया है?