जेफ्री हिंटन ने तंत्रिका नेटवर्क में "कैप्सूल सिद्धांत" नामक कुछ शोध किया है। यह क्या है और यह कैसे काम करता है?
जेफ्री हिंटन ने तंत्रिका नेटवर्क में "कैप्सूल सिद्धांत" नामक कुछ शोध किया है। यह क्या है और यह कैसे काम करता है?
जवाबों:
यह अभी तक प्रकाशित नहीं हुआ प्रतीत होता है; इस बात के लिए सबसे अच्छी ऑनलाइन उपलब्ध ये स्लाइड हैं । (कई लोग इस लिंक के साथ पहले की बातचीत का संदर्भ देते हैं , लेकिन दुख की बात है कि यह उत्तर लिखते समय टूट गया।)
मेरी धारणा है कि यह तंत्रिका नेटवर्क के अंदर सबनेटवर्क के निर्माण को औपचारिक बनाने और अमूर्त करने का एक प्रयास है। यही है, यदि आप एक मानक तंत्रिका नेटवर्क को देखते हैं, तो परतें पूरी तरह से जुड़ी हुई हैं (अर्थात, परत 1 में प्रत्येक न्यूरॉन की परत 0 में प्रत्येक न्यूरॉन तक पहुंच होती है, और परत 2 में प्रत्येक न्यूरॉन द्वारा स्वयं एक्सेस की जाती है)। लेकिन यह स्पष्ट रूप से उपयोगी नहीं है; एक के बजाय हो सकता है, कहते हैं, एन लेयर के समान्तर ढेर ('कैप्सूल') हो, जो कि प्रत्येक अलग कार्य पर निर्भर करता है (जिसे सफलतापूर्वक पूरा करने के लिए एक से अधिक परत की आवश्यकता हो सकती है)।
अगर मैं इसके परिणामों की सही ढंग से कल्पना कर रहा हूं, तो यह अधिक परिष्कृत ग्राफ टोपोलॉजी कुछ ऐसा लगता है जो आसानी से प्रभावशीलता और परिणामी नेटवर्क की व्याख्या दोनों को बढ़ा सकता है।
पिछले उत्तर को पूरक करने के लिए: इस पर एक पेपर होता है जो ज्यादातर कच्चे डेटा से निम्न-स्तरीय कैप्सूल सीखने के बारे में होता है, लेकिन इसके प्रारंभिक भाग में कैप्सूल के गर्भाधान के बारे में बताते हैं: http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf
यह भी ध्यान देने योग्य है कि ऊपर दिए गए उत्तर में MIT की बात का लिंक फिर से काम करता हुआ प्रतीत होता है।
हिंटन के अनुसार, एक "कैप्सूल" एक परत के भीतर न्यूरॉन्स का एक सबसेट होता है, जो एक "तात्कालिकता पैरामीटर" दोनों को आउटपुट करता है, यह दर्शाता है कि क्या एक इकाई एक सीमित डोमेन के भीतर मौजूद है और "पोज़ मापदंडों" के एक वेक्टर के सापेक्ष इकाई की मुद्रा निर्दिष्ट करती है एक विहित संस्करण।
निम्न-स्तरीय कैप्सूल द्वारा पैरामीटर आउटपुट उच्च-स्तरीय कैप्सूल द्वारा प्रदर्शित संस्थाओं की मुद्रा के लिए भविष्यवाणियों में परिवर्तित हो जाते हैं, जो कि सक्रिय हैं यदि भविष्यवाणियां सहमत हैं और अपने स्वयं के मापदंडों का उत्पादन करती हैं (उच्च-स्तरीय मुद्रा पैरामीटर प्राप्त पूर्वानुमानों का औसत है )।
हिंटन ने अनुमान लगाया कि यह उच्च-आयामी संयोग का पता लगाने के लिए मस्तिष्क में कौन-सा लघु-स्तंभ संगठन है। उनका मुख्य लक्ष्य दीक्षांत नेटवर्क में उपयोग किए जाने वाले अधिकतम पूलिंग की जगह लेता है, जिसमें गहरी परतें मुद्रा के बारे में जानकारी खो देती हैं।
कैप्सूल नेटवर्क मशीन पर मानव मस्तिष्क के हिंटन के अवलोकन की नकल करने की कोशिश करते हैं। प्रेरणा इस तथ्य से उपजी है कि तंत्रिका नेटवर्क को भागों के स्थानिक रिश्तों के बेहतर मॉडलिंग की आवश्यकता थी। सह-अस्तित्व को मॉडलिंग करने के बजाय, सापेक्ष स्थिति की उपेक्षा करते हुए, कैप्सूल-नेट एक पदानुक्रम के साथ विभिन्न उप-भागों के वैश्विक सापेक्ष परिवर्तनों को मॉडल करने का प्रयास करते हैं। यह ईकाइवरियस बनाम इनवेरियन ट्रेड-ऑफ है, जैसा कि दूसरों द्वारा ऊपर बताया गया है।
इन नेटवर्कों में इसलिए कुछ हद तक एक दृष्टिकोण / अभिविन्यास जागरूकता शामिल है और विभिन्न अभिविन्यास के लिए अलग-अलग प्रतिक्रिया करते हैं। यह गुण उन्हें अधिक भेदभावपूर्ण बनाता है, जबकि संभावित रूप से पोज़ आकलन करने की क्षमता का परिचय देता है क्योंकि अव्यक्त-स्थान की विशेषताओं में व्याख्या योग्य, विशिष्ट विवरण होते हैं।
यह सब एक नेस्टेड परत को शामिल करके पूरा किया जाता है जिसे परत के भीतर कैप्सूल कहा जाता है, बजाय नेटवर्क में एक और परत को समेटने के। ये कैप्सूल एक स्केलर प्रति नोड के बजाय वेक्टर आउटपुट प्रदान कर सकते हैं।
पेपर का महत्वपूर्ण योगदान डायनामिक रूटिंग है जो स्मार्ट रणनीति द्वारा मानक अधिकतम-पूलिंग की जगह लेता है। यह एल्गोरिथ्म कैप्सूल आउटपुट पर एक अर्थ-शिफ्ट क्लस्टरिंग लागू करता है ताकि यह सुनिश्चित हो सके कि आउटपुट केवल ऊपर की परत में उपयुक्त माता-पिता को भेजा जाता है।
लेखकों ने मार्जिन हानि और पुनर्निर्माण हानि के साथ योगदान को भी जोड़ा है, जो एक साथ कार्य को बेहतर ढंग से सीखने में मदद करते हैं और एमएनआईएसटी के साथ कला परिणामों की स्थिति दिखाते हैं।
हाल के पेपर का नाम डायनेमिक राउटिंग बिट्स कैप्सूल है और यह Arxiv: https://arxiv.org/pdf/1710.09829.pdf पर उपलब्ध है ।
कैप्सूल के बीच उनके पेपर डायनेमिक रूटिंग के आधार पर
कैप्सूल न्यूरॉन्स का एक समूह है, जिसकी गतिविधि वेक्टर एक विशिष्ट प्रकार की इकाई जैसे ऑब्जेक्ट या ऑब्जेक्ट भाग के तात्कालिकता मापदंडों का प्रतिनिधित्व करती है। हम गतिविधि वेक्टर की लंबाई का उपयोग उस संभावना का प्रतिनिधित्व करने के लिए करते हैं जो इकाई मौजूद है और तात्कालिक पैरामीटर्स का प्रतिनिधित्व करने के लिए इसकी अभिविन्यास। एक स्तर पर सक्रिय कैप्सूल उच्च-स्तरीय कैप्सूल के तात्कालिकता मापदंडों के लिए, परिवर्तन मैट्रिक्स के माध्यम से भविष्यवाणियां करते हैं। जब कई भविष्यवाणियां सहमत होती हैं, तो उच्च स्तर का कैप्सूल सक्रिय हो जाता है। हम दिखाते हैं कि भेदभावपूर्ण रूप से प्रशिक्षित, मल्टी-लेयर कैप्सूल सिस्टम MNIST पर अत्याधुनिक प्रदर्शन प्राप्त करता है और अत्यधिक ओवरलैपिंग अंकों को पहचानने में एक जटिल जाल की तुलना में काफी बेहतर है। इन परिणामों को प्राप्त करने के लिए हम एक पुनरावृत्ति मार्ग-दर-समझौते तंत्र का उपयोग करते हैं: एक निम्न-स्तरीय कैप्सूल अपने उत्पादन को उच्च स्तर के कैप्सूल में भेजना पसंद करता है, जिसकी गतिविधि वैक्टर में निचले स्तर के कैप्सूल से आने वाली भविष्यवाणी के साथ एक बड़ा स्केलर उत्पाद होता है। पेपर का अंतिम संस्करण समीक्षकों की टिप्पणियों को फिर से समझने के लिए संशोधन के तहत है।
संवादात्मक तंत्रिका नेटवर्क के प्रमुख लाभों में से एक अनुवाद करने के लिए उनका प्रतिसाद है। हालाँकि यह इनवेरियन एक मूल्य के साथ आता है और यह है कि यह विचार नहीं करता है कि एक-दूसरे से कितनी अलग-अलग विशेषताएं हैं। उदाहरण के लिए, यदि हमारे पास एक चेहरे की तस्वीर है तो सीएनएन में मुंह की विशेषता और नाक की विशेषताओं के बीच संबंध भेद करने में कठिनाई होगी। मैक्स पूलिंग परतें इस प्रभाव का मुख्य कारण हैं। क्योंकि जब हम अधिकतम पूलिंग परतों का उपयोग करते हैं, तो हम मुंह और शोर के सटीक स्थानों को खो देते हैं और हम यह नहीं कह सकते कि वे एक दूसरे से कैसे संबंधित हैं।
कैप्सूल सीएनएन का लाभ रखने और इस खामी को दो तरीकों से ठीक करने की कोशिश करते हैं;
जब कैप्सूल ठीक से काम कर रहा होता है, तो दृश्य इकाई के मौजूद होने की संभावना स्थानीय रूप से अपरिवर्तनीय होती है - यह परिवर्तन नहीं करता है क्योंकि कैप्सूल द्वारा कवर किए गए सीमित डोमेन के भीतर संभव प्रकटों के कई गुना अधिक बढ़ने पर इकाई चलती है।
दूसरे शब्दों में, कैप्सूल उस विशिष्ट विशेषता के अस्तित्व को ध्यान में रखता है जिसे हम मुंह या नाक की तरह देख रहे हैं। यह गुण सुनिश्चित करता है कि कैप्सूल ट्रांसल्वेंट ट्रांसलेशन हैं जो CNN हैं।