गहरे संवेदी तंत्रिका नेटवर्क में पूर्व प्रशिक्षण?


33

क्या किसी ने पहले से गहन गहन तंत्रिका नेटवर्क में प्रशिक्षण पर कोई साहित्य देखा है? मैंने केवल ऑटोएन्कोडर या प्रतिबंधित बोल्ट्ज़मैन मशीनों में बिना पूर्व-प्रशिक्षित प्रशिक्षण देखा है।

जवाबों:


39

मुझे यकीन नहीं है कि अगर यह आपके प्रश्न का सटीक उत्तर देता है, लेकिन मैं उस कारण को समझता हूं जिसके कारण आप लोगों को दिखावा नहीं करते हैं ( मेरा मतलब है कि यह एक अप्रतिष्ठित दिखावा भावना में है ) कन्टेक नेट्स हैं क्योंकि विशुद्ध रूप से पर्यवेक्षित प्रशिक्षण में विभिन्न नवाचार हुए हैं। अनावश्यक (अब के लिए, जो जानता है कि भविष्य में कौन-सी समस्याएं और मुद्दे?

मुख्य नवाचारों में से एक सिग्मोइडल (सिग्मॉइड, टैन्ह) सक्रियण इकाइयों से दूर जा रहा था, जो समतल / समतल वक्रता वाले क्षेत्रों में हो सकते हैं और इस प्रकार बहुत कम ढाल पीछे की ओर फैल जाते हैं, इसलिए सभी व्यावहारिक इरादों के लिए पूरी तरह से रुकना नहीं है, तो सीखना अविश्वसनीय रूप से धीमा है। और उद्देश्य। ग्लोरोट, बोर्डस और बेंगियो लेख डीप स्पार्स रेक्टिफायर न्यूरल नेटवर्क्स ने पारंपरिक लिग्मोइडल इकाइयों के बदले सक्रियण कार्यों के रूप में रेक्टिफाइड लीनियर यूनिट्स (रेएलयू) का इस्तेमाल किया। ReLUs के निम्नलिखित रूप हैं: । ध्यान दें कि वे अनबाउंड हैं और सकारात्मक भाग के लिए, निरंतर ढाल 1 है।f(x)=max(0,x)

ग्लोरोट, बॉर्ड्स और बेंगियो लेख ने बहुपरत अवधारणात्मक के लिए ReLUs का उपयोग किया और नॉट कन्वेंस नेट का। एक पिछला लेख जेरेट द्वारा ऑब्जेक्ट रिकॉग्निशन के लिए सबसे अच्छा मल्टी-स्टेज आर्किटेक्चर क्या है और यान लेकन के एनवाईयू समूह के अन्य लोगों ने अशुद्धियों को सुधारने के लिए उपयोग किया है लेकिन सिग्मोइडल इकाइयों के लिए, इसलिए उनके पास फॉर्म (x) = \ tanh (x) का सक्रियण कार्य था। ) | f(x)=|tanh(x)|, आदि दोनों लेखों ने देखा कि अशुद्धियों को सुधारने के लिए विशुद्ध रूप से पर्यवेक्षित तरीकों और अनर्गल प्रिटेंडेड तरीकों के बीच के अंतर को बंद करना पड़ता है।

एक और नवीनता यह है कि हमने गहरे नेटवर्क के लिए बेहतर इनिशियलाइज़ेशन का पता लगाया है। एक नेटवर्क की परतों के पार विचरण को मानकीकृत करने के विचार का उपयोग करते हुए, वर्षों से अंगूठे के अच्छे नियम स्थापित किए गए हैं। पहले, सबसे लोकप्रिय लोगों में से एक Glorot और Bengio द्वारा किया गया था प्रशिक्षण दीप feedforward नेटवर्क की कठिनाई को समझना जो एक रेखीय सक्रियण परिकल्पना के तहत और बाद में गहरे जाल प्रारंभ करने के लिए एक रास्ता प्रदान की जाने पर दीप में रेक्टिफायर्सMicrosoft अनुसंधान दल के सदस्यों के एक समूह द्वारा जो ग्लोरोट और बेंगियो के वजन को सुधारने के लिए संशोधित करते हैं, ताकि वे अशुद्धियों को ठीक कर सकें। वेट इनिशियलाइज़ेशन बेहद गहरे नेट्स के लिए एक बड़ी बात है। 30 लेयर के कन्टेन नेट के लिए, MSR वेट इनिशियलाइज़ेशन ने ग्लोरोट वेट इनिशियलाइज़ेशन की तुलना में बहुत बेहतर प्रदर्शन किया। ध्यान रहे कि ग्लोरोट का पेपर 2010 में और एमएसआर का पेपर 2015 में निकला था।

मुझे विश्वास नहीं हो रहा है कि एलेक्स क्रेजहेवस्की, इल्या सुतसिएवर और ज्योफ हिंटन द्वारा दीप कन्व्यूशनल न्यूरल नेटवर्क्स पेपर के साथ इमेजनेट क्लासिफिकेशन ने पहली बार नेट नेट के लिए ReLUs का उपयोग किया था, लेकिन इसका सबसे बड़ा प्रभाव था। इस पत्र में हम देखते हैं कि सजायाफ्ता जालों के लिए ReLU सीखने को गति प्रदान करते हैं, जैसा कि उनके CIFAR-10 ग्राफ़ में से एक द्वारा स्पष्ट किया गया है, जो बताता है कि ReLU conv nets गैर-ReLU कन्टेनसेट्स की तुलना में कम प्रशिक्षण त्रुटि दर तेजी से प्राप्त कर सकते हैं। ये ReLUs लुप्त हो रहे ढाल / संतृप्त सिग्मायोडल मुद्दों से ग्रस्त नहीं हैं और इसका उपयोग बहुत गहरे जाल को प्रशिक्षित करने के लिए किया जा सकता है। अन्य बड़े नवाचारों में से एक है, ड्रॉपआउट प्रशिक्षण, एक स्टोकेस्टिक शोर इंजेक्शन या मॉडल औसत तकनीक (आपके दृष्टिकोण के आधार पर) का उपयोग, जो हमें अधिक से अधिक लंबे समय तक बिना गहरी, बड़े तंत्रिका नेटवर्क को प्रशिक्षित करने की अनुमति देता है।

और कन्ट्रो नेट इनोवेशन एक दमदार गति से जारी रहा, लगभग सभी तरीकों का उपयोग करके ReLUs (या माइक्रोसॉफ्ट रिसर्च से PReLUs जैसे कुछ संशोधन), ड्रॉपआउट, और विशुद्ध रूप से पर्यवेक्षित प्रशिक्षण (SGD + मोमेंटम, संभवतः RMSProp या ADAGrad जैसी अनुकूली सीखने की दर तकनीकें) )।

तो अब तक, शीर्ष प्रदर्शन करने वाले कई नेट्स शुद्ध रूप से पर्यवेक्षित प्रकृति के लगते हैं। यह कहना गलत नहीं है कि भविष्य में बिना पढ़े-लिखे ढोंग करना या अनुपयोगी तकनीकों का उपयोग करना महत्वपूर्ण नहीं हो सकता है। लेकिन कुछ अविश्वसनीय रूप से गहरे कन्टेन नेट को प्रशिक्षित किया गया है, पर्यवेक्षित प्रशिक्षण का उपयोग करके, बहुत समृद्ध डेटासेट पर मानव स्तर के प्रदर्शन का मिलान या पार किया गया है। वास्तव में मेरा मानना ​​है कि ImageNet 2015 प्रतियोगिता के लिए नवीनतम Microsoft अनुसंधान प्रस्तुत करने में 150 परतें थीं। यह एक टाइपो नहीं है। 150।

यदि आप कन्टेन नेट्स के लिए अनप्रूव्ड प्रेट्रेनिंग का उपयोग करना चाहते हैं, तो मुझे लगता है कि आप एक ऐसा काम ढूंढ रहे होंगे, जिसमें कॉन्टेक्ट नेट के "स्टैन्डर्ड" सुपरवाइज्ड ट्रेनिंग इतनी अच्छी तरह से परफॉर्म न कर सकें और अनप्रूव्ड प्रेट्रेनिंग की कोशिश करें।

प्राकृतिक भाषा मॉडलिंग के विपरीत, यह एक अनछुए कार्य को खोजने के लिए कठिन लगता है जो छवि डेटा के लिए एक संगत पर्यवेक्षण कार्य में मदद करता है। लेकिन अगर आप इंटरनेट के चारों ओर पर्याप्त रूप से देखते हैं, तो आप गहरी शिक्षा के अग्रदूतों में से कुछ को देखते हैं (योशुआ बेंगियो, यान लेकन को कुछ नाम देने के लिए) इस बारे में बात करते हैं कि वे कितना महत्वपूर्ण है कि वे अनपेक्षित शिक्षा सीख रहे हैं और होगी।


1
मैंने स्टैनफोर्ड के कन्वर्सेशन के ट्यूटोरियल में देखा है कि, कन्वेन्शनल न्यूरल नेटवर्क में दिखावा होता है। यहाँ लिंक है: cs231n.github.io/transfer-learning क्या ये अलग हैं? चूँकि वे वास्तव में एक ही काम कर रहे हैं?
राका

2
अरे मुझे देर से जवाब के लिए खेद है। ट्रांसफर लर्निंग बहुत किया जाता है। इसका उपयोग खरोंच से प्रशिक्षण के थकाऊ कार्य से बचने के लिए किया जाता है और इसके बजाय इमेजनेट जैसे बड़े डेटासेट पर प्रशिक्षित सुविधाओं का उपयोग किया जाता है, और हम इसके बजाय केवल उन विशेषताओं के शीर्ष पर एक क्लासिफायर ट्रेन करते हैं। मैंने यह बताने के लिए अपने उत्तर को अपडेट कर दिया है कि इन दिनों आप बहुत सारे अनर्गल प्रेट्रिंग नहीं देखते हैं , जो ट्रांसफर लर्निंग के समान नहीं है। टिप्पणी के लिये आपका धन्यवाद।
इंडी एआई

+1। बहुत अच्छा जवाब। मुझे जो याद आ रहा है, उस पर कुछ चर्चा या टिप्पणी है कि आप क्या कह रहे हैं (यानी कि पूर्व-प्रशिक्षण की कोई आवश्यकता नहीं है) विशेष रूप से विवादास्पद तंत्रिका नेटवर्क (यदि ऐसा है, तो क्यों?) या किसी भी गहरे नेटवर्क पर लागू होता है, जिसमें गैर शामिल हैं विश्वासपात्र।
अमीबा का कहना है कि मोनिका

14

जैसा कि उपरोक्त उत्तरों से समझा जा सकता है, जब कई चीजें हुईं, तब प्रशिक्षण पूर्व-निर्धारित था। हालाँकि, मैं इसके बारे में अपनी समझ बनाना चाहता हूँ:

  1. बहुत समय पहले 2010 में, सभी ने पूर्व-प्रशिक्षण की परवाह की। यहाँ इस विषय पर एक बढ़िया पेपर है जिसे मैंने लाया नहीं था।
  2. एलेक्स क्रिज्व्स्की, इल्या सुतसिएवर और ज्योफ हिंटन से पहले थोड़ा अपने इमेजनेट पेपर को प्रकाशित किया था, लोगों का मानना ​​था कि फीचर्स काफी मायने रखते हैं लेकिन ज्यादातर अनचाहे सीखने पर ध्यान केंद्रित किया गया था और यहां तक ​​कि स्वयं ने उन सुविधाओं का निर्माण करना भी सिखाया था।
  3. यह देखना मुश्किल नहीं है कि क्यों - उस समय तंत्रिका नेटवर्क के बिल्डिंग ब्लॉक उतने मजबूत नहीं थे और बहुत धीरे-धीरे उपयोगी सुविधाओं में परिवर्तित हो गए। कई बार वे शानदार तरीके से असफल भी हुए। प्री ट्रेनिंग तब उपयोगी थी जब आपके पास पर्याप्त डेटा था और आपको एसडब्ल्यूई के लिए एक अच्छा इनिशियलाइज़ेशन मिल सकता था।
  4. जब रिले को लाया गया, तो नेटवर्क तेजी से परिवर्तित हुए। जब लीकी रिले और अधिक हाल के समाधानों को लाया गया, तो तंत्रिका जाल अधिक मजबूत मशीन बन गए जब यह एक व्यवहार्य परिणाम में परिवर्तित होने की बात आती है। मैं अत्यधिक अनुशंसा करता हूं कि आप एक उत्कृष्ट तंत्रिका नेटवर्क के साथ खेलें जो इस प्रतिभाशाली गोगलर ने लिखा है , आप देखेंगे कि मैं किस बारे में बात कर रहा हूं।
  5. हमारे मुख्य बिंदु पर पहुंचना, यह कहना नहीं है कि गहन शिक्षण में पूर्व-प्रशिक्षण का कुछ रूप महत्वपूर्ण नहीं है। यदि आप कला परिणामों की स्थिति प्राप्त करना चाहते हैं, तो आपको डेटा का पूर्व-प्रसंस्करण (उदाहरण के लिए ZCA) करना होगा और ठीक से प्रारंभिक वज़न चुनना होगा - यह विषय पर एक बहुत अच्छा पेपर है

तो आप देखते हैं, प्री-ट्रेनिंग ने प्री-प्रोसेसिंग और वेट इनिशियलाइज़ेशन के रूप में बदल दिया लेकिन फ़ंक्शन में बना रहा और यह अधिक सुरुचिपूर्ण हो गया।

अंतिम नोट के रूप में, मशीन सीखना बहुत फैशनेबल है। मैं एंड्रयू एनजी की तरह व्यक्तिगत रूप से शर्त लगा रहा हूं कि भविष्य में बिना पढ़े-लिखे और स्वयं-सिखाई गई शिक्षा प्रमुख होगी, इसलिए इसे धर्म मत बनाओ :)


13

कुछ कागजात हैं, लेकिन उतने नहीं हैं जितने कि ऑटोएन्कोडर्स या आरबीएम नहीं हैं। मुझे लगता है कि इसका कारण एनएन की टाइम लाइन है। स्टैक्ड आरबीएम और ऑटोएन्कोडर क्रमशः 2006 और 2007 में पेश किए जाते हैं। 2009 में अनियंत्रित सीखने पर ReLU के नियोजन के बाद आंशिक रूप से छोड़ दिया जाता है (जब प्रत्यक्ष पर्यवेक्षण सीखने में सीखने के लिए पर्याप्त डेटा होता है)। भले ही कन्वेंशन नेट (या लेनेट) का आविष्कार 1989 में किया गया हो, लेकिन यह 2012 तक गहरी संरचना के रूप में प्रशिक्षित नहीं हो सका, जो कि ReLU के साथ प्रत्यक्ष पर्यवेक्षित शिक्षण के लोकप्रिय होने के बाद है। इसलिए शोधकर्ताओं, मुझे लगता है, यह ज्यादातर प्रत्यक्ष पर्यवेक्षण सीखने का उपयोग करके प्रशिक्षित किया है।


तो, आप इस बात से सहमत हैं कि अभी तक गहन दृढ़ तंत्रिका नेटवर्क में कोई पूर्व-प्रशिक्षण नहीं है?
RockTheStar

4
@RockTheStar नहीं, पिछले दो जितना नहीं है। research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf इस शोध ने इसका उपयोग किया है। यहाँ एक छोटी बोली है; "हम मानते हैं कि प्री-ट्रेनिंग में DNN और CNN दोनों में सुधार होता है, TIMIT पर CNN को छोड़कर, जहाँ दिखावा करने से कोई मदद नहीं मिलती है। सामान्य तौर पर, CNN के लिए pretraining का उपयोग करने के सापेक्ष सुधार DNN से कम होता है।"
yasin.yazici
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.