हिंटन का "कैप्सूल सिद्धांत" कैसे काम करता है?

35

जेफ्री हिंटन ने तंत्रिका नेटवर्क में "कैप्सूल सिद्धांत" नामक कुछ शोध किया है। यह क्या है और यह कैसे काम करता है?

neural-networks

— rcpinto
स्रोत

8

अब इस पेपर को यहाँ देखा जा सकता है: arxiv.org/abs/1710.09829 डायनामिक राउटिंग इन द कैप्सुल्स सारा सबौर, निकोलस फ्रॉस्ट, जेफ्री ई हिंटन

— डेंके ज़ी

1

नई जानकारी (नवंबर 2017) के साथ एक संबंधित प्रश्न है: कैप्सूल नेटवर्क के पीछे मुख्य अवधारणा क्या है?

— मुजुल 10-1217

31

यह अभी तक प्रकाशित नहीं हुआ प्रतीत होता है; इस बात के लिए सबसे अच्छी ऑनलाइन उपलब्ध ये स्लाइड हैं । (कई लोग इस लिंक के साथ पहले की बातचीत का संदर्भ देते हैं , लेकिन दुख की बात है कि यह उत्तर लिखते समय टूट गया।)

मेरी धारणा है कि यह तंत्रिका नेटवर्क के अंदर सबनेटवर्क के निर्माण को औपचारिक बनाने और अमूर्त करने का एक प्रयास है। यही है, यदि आप एक मानक तंत्रिका नेटवर्क को देखते हैं, तो परतें पूरी तरह से जुड़ी हुई हैं (अर्थात, परत 1 में प्रत्येक न्यूरॉन की परत 0 में प्रत्येक न्यूरॉन तक पहुंच होती है, और परत 2 में प्रत्येक न्यूरॉन द्वारा स्वयं एक्सेस की जाती है)। लेकिन यह स्पष्ट रूप से उपयोगी नहीं है; एक के बजाय हो सकता है, कहते हैं, एन लेयर के समान्तर ढेर ('कैप्सूल') हो, जो कि प्रत्येक अलग कार्य पर निर्भर करता है (जिसे सफलतापूर्वक पूरा करने के लिए एक से अधिक परत की आवश्यकता हो सकती है)।

अगर मैं इसके परिणामों की सही ढंग से कल्पना कर रहा हूं, तो यह अधिक परिष्कृत ग्राफ टोपोलॉजी कुछ ऐसा लगता है जो आसानी से प्रभावशीलता और परिणामी नेटवर्क की व्याख्या दोनों को बढ़ा सकता है।

— मैथ्यू ग्रेव्स
स्रोत

9

: कागज अब (अक्टूबर 2017) प्रकाशित arxiv.org/pdf/1710.09829.pdf

— machinaut

13

पिछले उत्तर को पूरक करने के लिए: इस पर एक पेपर होता है जो ज्यादातर कच्चे डेटा से निम्न-स्तरीय कैप्सूल सीखने के बारे में होता है, लेकिन इसके प्रारंभिक भाग में कैप्सूल के गर्भाधान के बारे में बताते हैं: http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf

यह भी ध्यान देने योग्य है कि ऊपर दिए गए उत्तर में MIT की बात का लिंक फिर से काम करता हुआ प्रतीत होता है।

हिंटन के अनुसार, एक "कैप्सूल" एक परत के भीतर न्यूरॉन्स का एक सबसेट होता है, जो एक "तात्कालिकता पैरामीटर" दोनों को आउटपुट करता है, यह दर्शाता है कि क्या एक इकाई एक सीमित डोमेन के भीतर मौजूद है और "पोज़ मापदंडों" के एक वेक्टर के सापेक्ष इकाई की मुद्रा निर्दिष्ट करती है एक विहित संस्करण।

निम्न-स्तरीय कैप्सूल द्वारा पैरामीटर आउटपुट उच्च-स्तरीय कैप्सूल द्वारा प्रदर्शित संस्थाओं की मुद्रा के लिए भविष्यवाणियों में परिवर्तित हो जाते हैं, जो कि सक्रिय हैं यदि भविष्यवाणियां सहमत हैं और अपने स्वयं के मापदंडों का उत्पादन करती हैं (उच्च-स्तरीय मुद्रा पैरामीटर प्राप्त पूर्वानुमानों का औसत है )।

हिंटन ने अनुमान लगाया कि यह उच्च-आयामी संयोग का पता लगाने के लिए मस्तिष्क में कौन-सा लघु-स्तंभ संगठन है। उनका मुख्य लक्ष्य दीक्षांत नेटवर्क में उपयोग किए जाने वाले अधिकतम पूलिंग की जगह लेता है, जिसमें गहरी परतें मुद्रा के बारे में जानकारी खो देती हैं।

— a.kief
स्रोत

4

कैप्सूल नेटवर्क मशीन पर मानव मस्तिष्क के हिंटन के अवलोकन की नकल करने की कोशिश करते हैं। प्रेरणा इस तथ्य से उपजी है कि तंत्रिका नेटवर्क को भागों के स्थानिक रिश्तों के बेहतर मॉडलिंग की आवश्यकता थी। सह-अस्तित्व को मॉडलिंग करने के बजाय, सापेक्ष स्थिति की उपेक्षा करते हुए, कैप्सूल-नेट एक पदानुक्रम के साथ विभिन्न उप-भागों के वैश्विक सापेक्ष परिवर्तनों को मॉडल करने का प्रयास करते हैं। यह ईकाइवरियस बनाम इनवेरियन ट्रेड-ऑफ है, जैसा कि दूसरों द्वारा ऊपर बताया गया है।

इन नेटवर्कों में इसलिए कुछ हद तक एक दृष्टिकोण / अभिविन्यास जागरूकता शामिल है और विभिन्न अभिविन्यास के लिए अलग-अलग प्रतिक्रिया करते हैं। यह गुण उन्हें अधिक भेदभावपूर्ण बनाता है, जबकि संभावित रूप से पोज़ आकलन करने की क्षमता का परिचय देता है क्योंकि अव्यक्त-स्थान की विशेषताओं में व्याख्या योग्य, विशिष्ट विवरण होते हैं।

यह सब एक नेस्टेड परत को शामिल करके पूरा किया जाता है जिसे परत के भीतर कैप्सूल कहा जाता है, बजाय नेटवर्क में एक और परत को समेटने के। ये कैप्सूल एक स्केलर प्रति नोड के बजाय वेक्टर आउटपुट प्रदान कर सकते हैं।

पेपर का महत्वपूर्ण योगदान डायनामिक रूटिंग है जो स्मार्ट रणनीति द्वारा मानक अधिकतम-पूलिंग की जगह लेता है। यह एल्गोरिथ्म कैप्सूल आउटपुट पर एक अर्थ-शिफ्ट क्लस्टरिंग लागू करता है ताकि यह सुनिश्चित हो सके कि आउटपुट केवल ऊपर की परत में उपयुक्त माता-पिता को भेजा जाता है।

लेखकों ने मार्जिन हानि और पुनर्निर्माण हानि के साथ योगदान को भी जोड़ा है, जो एक साथ कार्य को बेहतर ढंग से सीखने में मदद करते हैं और एमएनआईएसटी के साथ कला परिणामों की स्थिति दिखाते हैं।

हाल के पेपर का नाम डायनेमिक राउटिंग बिट्स कैप्सूल है और यह Arxiv: https://arxiv.org/pdf/1710.09829.pdf पर उपलब्ध है ।

— टोलगा बर्डल
स्रोत

3

कैप्सूल के बीच उनके पेपर डायनेमिक रूटिंग के आधार पर

कैप्सूल न्यूरॉन्स का एक समूह है, जिसकी गतिविधि वेक्टर एक विशिष्ट प्रकार की इकाई जैसे ऑब्जेक्ट या ऑब्जेक्ट भाग के तात्कालिकता मापदंडों का प्रतिनिधित्व करती है। हम गतिविधि वेक्टर की लंबाई का उपयोग उस संभावना का प्रतिनिधित्व करने के लिए करते हैं जो इकाई मौजूद है और तात्कालिक पैरामीटर्स का प्रतिनिधित्व करने के लिए इसकी अभिविन्यास। एक स्तर पर सक्रिय कैप्सूल उच्च-स्तरीय कैप्सूल के तात्कालिकता मापदंडों के लिए, परिवर्तन मैट्रिक्स के माध्यम से भविष्यवाणियां करते हैं। जब कई भविष्यवाणियां सहमत होती हैं, तो उच्च स्तर का कैप्सूल सक्रिय हो जाता है। हम दिखाते हैं कि भेदभावपूर्ण रूप से प्रशिक्षित, मल्टी-लेयर कैप्सूल सिस्टम MNIST पर अत्याधुनिक प्रदर्शन प्राप्त करता है और अत्यधिक ओवरलैपिंग अंकों को पहचानने में एक जटिल जाल की तुलना में काफी बेहतर है। इन परिणामों को प्राप्त करने के लिए हम एक पुनरावृत्ति मार्ग-दर-समझौते तंत्र का उपयोग करते हैं: एक निम्न-स्तरीय कैप्सूल अपने उत्पादन को उच्च स्तर के कैप्सूल में भेजना पसंद करता है, जिसकी गतिविधि वैक्टर में निचले स्तर के कैप्सूल से आने वाली भविष्यवाणी के साथ एक बड़ा स्केलर उत्पाद होता है। पेपर का अंतिम संस्करण समीक्षकों की टिप्पणियों को फिर से समझने के लिए संशोधन के तहत है।

— mwweb
स्रोत

2

एक अच्छा जवाब आमतौर पर सिर्फ एक उद्धरण से अधिक होता है। आप आमतौर पर एक स्पष्ट तरीके से आराम कर सकते हैं या आगे की गहराई में जा सकते हैं। बहुत कम ही सिर्फ एक उद्धरण है जो एक अच्छा जवाब देने के लिए लेता है। क्या आपको लगता है कि आप इसे संपादित करके थोड़ा सुधार कर सकते हैं?

— 14:58 पर user58

3

संवादात्मक तंत्रिका नेटवर्क के प्रमुख लाभों में से एक अनुवाद करने के लिए उनका प्रतिसाद है। हालाँकि यह इनवेरियन एक मूल्य के साथ आता है और यह है कि यह विचार नहीं करता है कि एक-दूसरे से कितनी अलग-अलग विशेषताएं हैं। उदाहरण के लिए, यदि हमारे पास एक चेहरे की तस्वीर है तो सीएनएन में मुंह की विशेषता और नाक की विशेषताओं के बीच संबंध भेद करने में कठिनाई होगी। मैक्स पूलिंग परतें इस प्रभाव का मुख्य कारण हैं। क्योंकि जब हम अधिकतम पूलिंग परतों का उपयोग करते हैं, तो हम मुंह और शोर के सटीक स्थानों को खो देते हैं और हम यह नहीं कह सकते कि वे एक दूसरे से कैसे संबंधित हैं।

कैप्सूल सीएनएन का लाभ रखने और इस खामी को दो तरीकों से ठीक करने की कोशिश करते हैं;

Invariance: इस पत्र से उद्धृत

जब कैप्सूल ठीक से काम कर रहा होता है, तो दृश्य इकाई के मौजूद होने की संभावना स्थानीय रूप से अपरिवर्तनीय होती है - यह परिवर्तन नहीं करता है क्योंकि कैप्सूल द्वारा कवर किए गए सीमित डोमेन के भीतर संभव प्रकटों के कई गुना अधिक बढ़ने पर इकाई चलती है।

दूसरे शब्दों में, कैप्सूल उस विशिष्ट विशेषता के अस्तित्व को ध्यान में रखता है जिसे हम मुंह या नाक की तरह देख रहे हैं। यह गुण सुनिश्चित करता है कि कैप्सूल ट्रांसल्वेंट ट्रांसलेशन हैं जो CNN हैं।

Equivariance: बजाय सुविधा अनुवाद बनाने का निश्चरता , कैप्सूल यह अनुवाद-equivariant या दृष्टिकोण-equivariant कर देगा। दूसरे शब्दों में, जैसा कि फीचर चलता है और छवि में अपनी स्थिति बदलता है, फीचर वेक्टर प्रतिनिधित्व भी उसी तरह से बदल जाएगा जो इसे समतुल्य बनाता है। कैप्सूल की यह संपत्ति अधिकतम पूलिंग परतों की कमी को हल करने की कोशिश करती है जिसका मैंने शुरुआत में उल्लेख किया था।

— रास
स्रोत