स्टैक किए गए ऑटोएन्कोडर्स और मल्टी-लेयर न्यूरल नेटवर्क अलग-अलग हैं। व्यवहार में, आपके पास दो नेटवर्क साझा वजन होंगे और संभवतः मेमोरी बफ़र्स साझा करेंगे। तो आपके क्रियान्वयन में दोनों नेटवर्क जुड़ जाते हैं।
आमतौर पर, ऑटोएन्कोडर्स को एक अनिश्चित, लालची, परत-वार फैशन में प्रशिक्षित किया जाता है। (कोई लेबल नहीं, नेटवर्क की सिर्फ पहली परत के साथ प्रशिक्षण शुरू करें और फिर नई परतें जोड़ें जैसे आप जाते हैं।) "बैच" ग्रेडिएंट डीसेंट (कृपया ऐसा न करें) से लेकर कई तकनीकों का उपयोग करके वज़न सीखा जा सकता है, ( एल-बीएफजीएस जैसे अर्ध-न्यूटन विधियों के लिए मिनी-बैच स्टोचस्टिक ग्रेडिएंट डिसेंट (SGD)।
विचार यह है कि प्रतिनिधित्व सीखने के कार्य के लिए पुनर्निर्माण त्रुटि को कम करने के लिए एक अनिश्चित तरीके से सीखा गया वेट एक पर्यवेक्षित भेदभावपूर्ण कार्य जैसे कि वर्गीकरण या समानता के लिए नेटवर्क को आरंभीकृत करने के लिए एक अच्छा प्रारंभिक बिंदु प्रदान करता है। यानी, नेटवर्क अनलिस्टेड डेटा को देखकर अंतर्निहित वितरण के बारे में कुछ सीखता है, जो इसे लेबल किए गए डेटा के बीच भेदभाव करने की अनुमति देता है। हालाँकि, इस नए कार्य के लिए वज़न अभी भी "ठीक-ठीक" होना चाहिए। इसलिए नेटवर्क के शीर्ष पर एक लॉजिस्टिक रिग्रेशन लेयर जोड़ें और फिर लेबल किए गए डेटासेट के साथ पर्यवेक्षित शिक्षण करें। ठीक ट्यूनिंग कदम ढाल वंश और नेटवर्क में सभी परतों के लिए एक साथ वजन को समायोजित करेगा ।
तंत्रिका जाल प्रशिक्षण के इस प्रकार के लाभ हैं:
- Unsupervised प्रशिक्षण से आप नेटवर्क को अधिक डेटा दिखा सकते हैं क्योंकि बड़े अनचाहे डेटासेट प्राप्त करना बहुत आसान है, क्योंकि यह लेबल वाले होते हैं।
- आप नए क्लासिफायर के प्रशिक्षण के लिए पूर्व-प्रशिक्षित नेटवर्क को "जंपिंग ऑफ़ पॉइंट" के रूप में उपयोग कर सकते हैं ताकि आपको हर बार खरोंच से शुरू न करना पड़े।
कागज के लिए, स्टैक्ड डीनोइसिंग ऑटोएन्कोडर्स देखें : एक स्थानीय डीनोइसिंग मानदंड के साथ एक गहरे नेटवर्क में उपयोगी अभ्यावेदन सीखना ।