क्या स्टैक किए गए ऑटोएन्कोडर और 2-लेयर न्यूरल नेटवर्क के प्रशिक्षण के बीच कोई अंतर है?


14

मान लीजिए कि मैं 2-लेयर स्टैक्ड ऑटोएन्कोडर और 2-लेयर न्यूरल नेटवर्क के निर्माण के लिए एक एल्गोरिथम लिख रहा हूं। क्या वे समान चीजें या अंतर हैं?

मुझे क्या समझ में आता है कि जब मैं एक खड़ी ऑटोकेनोडर का निर्माण करता हूं, तो मैं परत दर परत निर्माण करूंगा। तंत्रिका नेटवर्क के लिए, मैं नेटवॉर्क में सभी मापदंडों को इनिशियलाइज़ करूँगा, और फिर प्रत्येक डेटा पॉइंट के लिए, मैं इसे नेटवर्क से गुज़ारूंगा और नुकसान की गणना (जैसे, यूक्लीन की दूरी) करूँगा और बैकप्रोपैजेशन करूँगा।

जवाबों:


16

स्टैक किए गए ऑटोएन्कोडर्स और मल्टी-लेयर न्यूरल नेटवर्क अलग-अलग हैं। व्यवहार में, आपके पास दो नेटवर्क साझा वजन होंगे और संभवतः मेमोरी बफ़र्स साझा करेंगे। तो आपके क्रियान्वयन में दोनों नेटवर्क जुड़ जाते हैं।

आमतौर पर, ऑटोएन्कोडर्स को एक अनिश्चित, लालची, परत-वार फैशन में प्रशिक्षित किया जाता है। (कोई लेबल नहीं, नेटवर्क की सिर्फ पहली परत के साथ प्रशिक्षण शुरू करें और फिर नई परतें जोड़ें जैसे आप जाते हैं।) "बैच" ग्रेडिएंट डीसेंट (कृपया ऐसा न करें) से लेकर कई तकनीकों का उपयोग करके वज़न सीखा जा सकता है, ( एल-बीएफजीएस जैसे अर्ध-न्यूटन विधियों के लिए मिनी-बैच स्टोचस्टिक ग्रेडिएंट डिसेंट (SGD)।

विचार यह है कि प्रतिनिधित्व सीखने के कार्य के लिए पुनर्निर्माण त्रुटि को कम करने के लिए एक अनिश्चित तरीके से सीखा गया वेट एक पर्यवेक्षित भेदभावपूर्ण कार्य जैसे कि वर्गीकरण या समानता के लिए नेटवर्क को आरंभीकृत करने के लिए एक अच्छा प्रारंभिक बिंदु प्रदान करता है। यानी, नेटवर्क अनलिस्टेड डेटा को देखकर अंतर्निहित वितरण के बारे में कुछ सीखता है, जो इसे लेबल किए गए डेटा के बीच भेदभाव करने की अनुमति देता है। हालाँकि, इस नए कार्य के लिए वज़न अभी भी "ठीक-ठीक" होना चाहिए। इसलिए नेटवर्क के शीर्ष पर एक लॉजिस्टिक रिग्रेशन लेयर जोड़ें और फिर लेबल किए गए डेटासेट के साथ पर्यवेक्षित शिक्षण करें। ठीक ट्यूनिंग कदम ढाल वंश और नेटवर्क में सभी परतों के लिए एक साथ वजन को समायोजित करेगा ।

तंत्रिका जाल प्रशिक्षण के इस प्रकार के लाभ हैं:

  1. Unsupervised प्रशिक्षण से आप नेटवर्क को अधिक डेटा दिखा सकते हैं क्योंकि बड़े अनचाहे डेटासेट प्राप्त करना बहुत आसान है, क्योंकि यह लेबल वाले होते हैं।
  2. आप नए क्लासिफायर के प्रशिक्षण के लिए पूर्व-प्रशिक्षित नेटवर्क को "जंपिंग ऑफ़ पॉइंट" के रूप में उपयोग कर सकते हैं ताकि आपको हर बार खरोंच से शुरू न करना पड़े।

कागज के लिए, स्टैक्ड डीनोइसिंग ऑटोएन्कोडर्स देखें : एक स्थानीय डीनोइसिंग मानदंड के साथ एक गहरे नेटवर्क में उपयोगी अभ्यावेदन सीखना


मैं दूसरे चरण के बारे में उलझन में हूं जहां आप एक वर्गीकरण कार्य के लिए एक वर्गीकरण परत (जैसे सॉफ्टमैक्स परत) के साथ एन्कोडिंग परत को प्रशिक्षित करते हैं। क्या आप लेबल सीखने के लिए इस भाग के लिए फिर से प्रशिक्षण डेटासेट का उपयोग करते हैं? मुझे यह अजीब लगता है क्योंकि प्रशिक्षण सेट का उपयोग केवल खुद का एक अनुमान जानने के लिए किया गया था।
लड़का

यह बहुत मतलब नहीं है अगर आप सभी डेटा वैसे भी लेबल है। यह उन स्थितियों के लिए अधिक है जहां आपके पास दिखावा करने के लिए बहुत अधिक अनलिस्टेड डेटा है और फिर ठीक ट्यून करने के लिए लेबल "प्रशिक्षण" डेटा का उपयोग करें।
म्याऊ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.