क्या किसी ने पहले से गहन गहन तंत्रिका नेटवर्क में प्रशिक्षण पर कोई साहित्य देखा है? मैंने केवल ऑटोएन्कोडर या प्रतिबंधित बोल्ट्ज़मैन मशीनों में बिना पूर्व-प्रशिक्षित प्रशिक्षण देखा है।
क्या किसी ने पहले से गहन गहन तंत्रिका नेटवर्क में प्रशिक्षण पर कोई साहित्य देखा है? मैंने केवल ऑटोएन्कोडर या प्रतिबंधित बोल्ट्ज़मैन मशीनों में बिना पूर्व-प्रशिक्षित प्रशिक्षण देखा है।
जवाबों:
मुझे यकीन नहीं है कि अगर यह आपके प्रश्न का सटीक उत्तर देता है, लेकिन मैं उस कारण को समझता हूं जिसके कारण आप लोगों को दिखावा नहीं करते हैं ( मेरा मतलब है कि यह एक अप्रतिष्ठित दिखावा भावना में है ) कन्टेक नेट्स हैं क्योंकि विशुद्ध रूप से पर्यवेक्षित प्रशिक्षण में विभिन्न नवाचार हुए हैं। अनावश्यक (अब के लिए, जो जानता है कि भविष्य में कौन-सी समस्याएं और मुद्दे?
मुख्य नवाचारों में से एक सिग्मोइडल (सिग्मॉइड, टैन्ह) सक्रियण इकाइयों से दूर जा रहा था, जो समतल / समतल वक्रता वाले क्षेत्रों में हो सकते हैं और इस प्रकार बहुत कम ढाल पीछे की ओर फैल जाते हैं, इसलिए सभी व्यावहारिक इरादों के लिए पूरी तरह से रुकना नहीं है, तो सीखना अविश्वसनीय रूप से धीमा है। और उद्देश्य। ग्लोरोट, बोर्डस और बेंगियो लेख डीप स्पार्स रेक्टिफायर न्यूरल नेटवर्क्स ने पारंपरिक लिग्मोइडल इकाइयों के बदले सक्रियण कार्यों के रूप में रेक्टिफाइड लीनियर यूनिट्स (रेएलयू) का इस्तेमाल किया। ReLUs के निम्नलिखित रूप हैं: । ध्यान दें कि वे अनबाउंड हैं और सकारात्मक भाग के लिए, निरंतर ढाल 1 है।
ग्लोरोट, बॉर्ड्स और बेंगियो लेख ने बहुपरत अवधारणात्मक के लिए ReLUs का उपयोग किया और नॉट कन्वेंस नेट का। एक पिछला लेख जेरेट द्वारा ऑब्जेक्ट रिकॉग्निशन के लिए सबसे अच्छा मल्टी-स्टेज आर्किटेक्चर क्या है और यान लेकन के एनवाईयू समूह के अन्य लोगों ने अशुद्धियों को सुधारने के लिए उपयोग किया है लेकिन सिग्मोइडल इकाइयों के लिए, इसलिए उनके पास फॉर्म (x) = \ tanh (x) का सक्रियण कार्य था। ) | , आदि दोनों लेखों ने देखा कि अशुद्धियों को सुधारने के लिए विशुद्ध रूप से पर्यवेक्षित तरीकों और अनर्गल प्रिटेंडेड तरीकों के बीच के अंतर को बंद करना पड़ता है।
एक और नवीनता यह है कि हमने गहरे नेटवर्क के लिए बेहतर इनिशियलाइज़ेशन का पता लगाया है। एक नेटवर्क की परतों के पार विचरण को मानकीकृत करने के विचार का उपयोग करते हुए, वर्षों से अंगूठे के अच्छे नियम स्थापित किए गए हैं। पहले, सबसे लोकप्रिय लोगों में से एक Glorot और Bengio द्वारा किया गया था प्रशिक्षण दीप feedforward नेटवर्क की कठिनाई को समझना जो एक रेखीय सक्रियण परिकल्पना के तहत और बाद में गहरे जाल प्रारंभ करने के लिए एक रास्ता प्रदान की जाने पर दीप में रेक्टिफायर्सMicrosoft अनुसंधान दल के सदस्यों के एक समूह द्वारा जो ग्लोरोट और बेंगियो के वजन को सुधारने के लिए संशोधित करते हैं, ताकि वे अशुद्धियों को ठीक कर सकें। वेट इनिशियलाइज़ेशन बेहद गहरे नेट्स के लिए एक बड़ी बात है। 30 लेयर के कन्टेन नेट के लिए, MSR वेट इनिशियलाइज़ेशन ने ग्लोरोट वेट इनिशियलाइज़ेशन की तुलना में बहुत बेहतर प्रदर्शन किया। ध्यान रहे कि ग्लोरोट का पेपर 2010 में और एमएसआर का पेपर 2015 में निकला था।
मुझे विश्वास नहीं हो रहा है कि एलेक्स क्रेजहेवस्की, इल्या सुतसिएवर और ज्योफ हिंटन द्वारा दीप कन्व्यूशनल न्यूरल नेटवर्क्स पेपर के साथ इमेजनेट क्लासिफिकेशन ने पहली बार नेट नेट के लिए ReLUs का उपयोग किया था, लेकिन इसका सबसे बड़ा प्रभाव था। इस पत्र में हम देखते हैं कि सजायाफ्ता जालों के लिए ReLU सीखने को गति प्रदान करते हैं, जैसा कि उनके CIFAR-10 ग्राफ़ में से एक द्वारा स्पष्ट किया गया है, जो बताता है कि ReLU conv nets गैर-ReLU कन्टेनसेट्स की तुलना में कम प्रशिक्षण त्रुटि दर तेजी से प्राप्त कर सकते हैं। ये ReLUs लुप्त हो रहे ढाल / संतृप्त सिग्मायोडल मुद्दों से ग्रस्त नहीं हैं और इसका उपयोग बहुत गहरे जाल को प्रशिक्षित करने के लिए किया जा सकता है। अन्य बड़े नवाचारों में से एक है, ड्रॉपआउट प्रशिक्षण, एक स्टोकेस्टिक शोर इंजेक्शन या मॉडल औसत तकनीक (आपके दृष्टिकोण के आधार पर) का उपयोग, जो हमें अधिक से अधिक लंबे समय तक बिना गहरी, बड़े तंत्रिका नेटवर्क को प्रशिक्षित करने की अनुमति देता है।
और कन्ट्रो नेट इनोवेशन एक दमदार गति से जारी रहा, लगभग सभी तरीकों का उपयोग करके ReLUs (या माइक्रोसॉफ्ट रिसर्च से PReLUs जैसे कुछ संशोधन), ड्रॉपआउट, और विशुद्ध रूप से पर्यवेक्षित प्रशिक्षण (SGD + मोमेंटम, संभवतः RMSProp या ADAGrad जैसी अनुकूली सीखने की दर तकनीकें) )।
तो अब तक, शीर्ष प्रदर्शन करने वाले कई नेट्स शुद्ध रूप से पर्यवेक्षित प्रकृति के लगते हैं। यह कहना गलत नहीं है कि भविष्य में बिना पढ़े-लिखे ढोंग करना या अनुपयोगी तकनीकों का उपयोग करना महत्वपूर्ण नहीं हो सकता है। लेकिन कुछ अविश्वसनीय रूप से गहरे कन्टेन नेट को प्रशिक्षित किया गया है, पर्यवेक्षित प्रशिक्षण का उपयोग करके, बहुत समृद्ध डेटासेट पर मानव स्तर के प्रदर्शन का मिलान या पार किया गया है। वास्तव में मेरा मानना है कि ImageNet 2015 प्रतियोगिता के लिए नवीनतम Microsoft अनुसंधान प्रस्तुत करने में 150 परतें थीं। यह एक टाइपो नहीं है। 150।
यदि आप कन्टेन नेट्स के लिए अनप्रूव्ड प्रेट्रेनिंग का उपयोग करना चाहते हैं, तो मुझे लगता है कि आप एक ऐसा काम ढूंढ रहे होंगे, जिसमें कॉन्टेक्ट नेट के "स्टैन्डर्ड" सुपरवाइज्ड ट्रेनिंग इतनी अच्छी तरह से परफॉर्म न कर सकें और अनप्रूव्ड प्रेट्रेनिंग की कोशिश करें।
प्राकृतिक भाषा मॉडलिंग के विपरीत, यह एक अनछुए कार्य को खोजने के लिए कठिन लगता है जो छवि डेटा के लिए एक संगत पर्यवेक्षण कार्य में मदद करता है। लेकिन अगर आप इंटरनेट के चारों ओर पर्याप्त रूप से देखते हैं, तो आप गहरी शिक्षा के अग्रदूतों में से कुछ को देखते हैं (योशुआ बेंगियो, यान लेकन को कुछ नाम देने के लिए) इस बारे में बात करते हैं कि वे कितना महत्वपूर्ण है कि वे अनपेक्षित शिक्षा सीख रहे हैं और होगी।
जैसा कि उपरोक्त उत्तरों से समझा जा सकता है, जब कई चीजें हुईं, तब प्रशिक्षण पूर्व-निर्धारित था। हालाँकि, मैं इसके बारे में अपनी समझ बनाना चाहता हूँ:
तो आप देखते हैं, प्री-ट्रेनिंग ने प्री-प्रोसेसिंग और वेट इनिशियलाइज़ेशन के रूप में बदल दिया लेकिन फ़ंक्शन में बना रहा और यह अधिक सुरुचिपूर्ण हो गया।
अंतिम नोट के रूप में, मशीन सीखना बहुत फैशनेबल है। मैं एंड्रयू एनजी की तरह व्यक्तिगत रूप से शर्त लगा रहा हूं कि भविष्य में बिना पढ़े-लिखे और स्वयं-सिखाई गई शिक्षा प्रमुख होगी, इसलिए इसे धर्म मत बनाओ :)
कुछ कागजात हैं, लेकिन उतने नहीं हैं जितने कि ऑटोएन्कोडर्स या आरबीएम नहीं हैं। मुझे लगता है कि इसका कारण एनएन की टाइम लाइन है। स्टैक्ड आरबीएम और ऑटोएन्कोडर क्रमशः 2006 और 2007 में पेश किए जाते हैं। 2009 में अनियंत्रित सीखने पर ReLU के नियोजन के बाद आंशिक रूप से छोड़ दिया जाता है (जब प्रत्यक्ष पर्यवेक्षण सीखने में सीखने के लिए पर्याप्त डेटा होता है)। भले ही कन्वेंशन नेट (या लेनेट) का आविष्कार 1989 में किया गया हो, लेकिन यह 2012 तक गहरी संरचना के रूप में प्रशिक्षित नहीं हो सका, जो कि ReLU के साथ प्रत्यक्ष पर्यवेक्षित शिक्षण के लोकप्रिय होने के बाद है। इसलिए शोधकर्ताओं, मुझे लगता है, यह ज्यादातर प्रत्यक्ष पर्यवेक्षण सीखने का उपयोग करके प्रशिक्षित किया है।