गणितीय रूप से तंत्रिका नेटवर्क को चित्रमय मॉडल के रूप में मॉडलिंग करना


12

मैं एक तंत्रिका नेटवर्क और एक ग्राफिकल मॉडल के बीच गणितीय संबंध बनाने के लिए संघर्ष कर रहा हूं।

ग्राफिकल मॉडल में यह विचार सरल है: संभाव्यता वितरण ग्राफ में क्लोन के अनुसार फैक्टर करता है, जिसमें संभावित रूप से घातीय परिवार होते हैं।

क्या तंत्रिका नेटवर्क के लिए एक समान तर्क है? क्या एक प्रतिबंधित बोल्ट्ट्जमैन मशीन या सीएनएन में इकाइयों (चर) पर संभाव्यता वितरण को उनकी ऊर्जा के कार्य के रूप में, या इकाइयों के बीच ऊर्जा के उत्पाद के रूप में व्यक्त किया जा सकता है?

इसके अलावा, संभावित वितरण RBM या डीप विश्वास नेटवर्क (जैसे CNNs) के साथ घातीय परिवार द्वारा निर्मित है?

मैं एक ऐसे पाठ को खोजने की उम्मीद कर रहा हूं जो इन आधुनिक प्रकार के तंत्रिका नेटवर्क और आंकड़ों के बीच संबंध को उसी तरह से औपचारिक बनाता है, जैसा कि जॉर्डन एंड वेनराइट ने अपने ग्राफिकल मॉडल्स, एक्सपोनेंशियल फैमिलीज और वेरिएशन इंट्रेंस के साथ ग्राफिकल मॉडल के लिए किया था । कोई संकेत महान होगा।


1
IM (हैदर) O यहाँ मुख्य समस्या यह है कि तंत्रिका नेटवर्क वास्तव में नेटवर्क नहीं हैं; उनके पास व्यावहारिक रूप से एक निश्चित टोपोलॉजी है और इस प्रकार इसके अंदर किसी भी जानकारी को संग्रहीत करने का मामूली मौका है।

क्या आपने यह हालिया पोस्ट देखा है ?
jerad

@ जेरड थैंक्स, मैंने वह पोस्ट नहीं पढ़ी थी। मेरा प्रश्न इतना नहीं है कि इन मॉडलों को कैसे संयोजित किया जाए (जैसे कि जब यान कहता है "using deep nets as factors in an MRF"), लेकिन एक संभाव्य कारक ग्राफ के रूप में एक गहरे जाल को कैसे देखें। जब यान लेकन का कहना है "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", मुझे उस संबंध को गणितीय रूप से देखने में दिलचस्पी है।
अमेलियो वाज़केज़-रीना

@mbq, हमने छिपे हुए परत घटक सूचना भंडारण के कुछ रूपों को देखा है, उदाहरण के लिए https://distill.pub/2017/feature-visualization/( कैसे तंत्रिका नेटवर्क छवियों की अपनी समझ का निर्माण करते हैं ), जिसमें एक जटिल छवि में घटक ऑब्जेक्ट छिपे हुए परत नोड्स द्वारा दर्शाए गए हैं। वज़न गैर-असतत फैशन में 'टोपोलॉजी' को बदल सकता है। हालाँकि मैंने इसे नहीं देखा है, कुछ तरीकों में किनारों को हटाने के लिए संकोचन कारक शामिल हो सकते हैं और इसलिए मूल टोपोलॉजी को बदल सकते हैं
Vass

जवाबों:


6

इस विषय पर एक और अच्छा परिचय है CSC321 टोरंटो विश्वविद्यालय में पाठ्यक्रम, और neuralnets-2012-001 Coursera, दोनों जेफ्री हिंटन द्वारा सिखाया पर पाठ्यक्रम।

विश्वास नेट्स पर वीडियो से :

चित्रमय मॉडल

प्रारंभिक चित्रमय मॉडल ग्राफ संरचना और सशर्त संभावनाओं को परिभाषित करने के लिए विशेषज्ञों का उपयोग करते थे। रेखांकन काफी जुड़े हुए थे, और ध्यान सही अनुमान प्रदर्शन पर था, और सीखने पर नहीं (विशेषज्ञों से ज्ञान आया था)।

तंत्रिका जाल

तंत्रिका जाल के लिए, सीखना केंद्रीय था। हार्ड-वायरिंग ज्ञान अच्छा नहीं था (ठीक है, शायद थोड़ा सा)। सीखना प्रशिक्षण के आंकड़ों को सीखने से आया, विशेषज्ञों से नहीं। तंत्रिका नेटवर्क ने अनुमान को आसान बनाने के लिए विरल कनेक्टिविटी की व्याख्या करने का लक्ष्य नहीं रखा। फिर भी, विश्वास जाल के तंत्रिका नेटवर्क संस्करण हैं।


मेरी समझ यह है कि विश्वास जाल आमतौर पर बहुत सघन रूप से जुड़े होते हैं, और उनके क्लोन व्याख्यात्मक होने के लिए बहुत बड़े होते हैं। विश्वास जाल इनपुट को एकीकृत करने के लिए सिग्मॉइड फ़ंक्शन का उपयोग करते हैं, जबकि निरंतर ग्राफिकल मॉडल आमतौर पर गॉसियन फ़ंक्शन का उपयोग करते हैं। सिग्मॉइड नेटवर्क को प्रशिक्षित करना आसान बनाता है, लेकिन संभावना के संदर्भ में व्याख्या करना अधिक कठिन है। मेरा मानना ​​है कि दोनों घातीय परिवार में हैं।

मैं इस पर एक विशेषज्ञ से बहुत दूर हूं, लेकिन व्याख्यान नोट्स और वीडियो एक महान संसाधन हैं।


1
साइट पर आपका स्वागत है। हम प्रश्नों और उत्तरों के रूप में उच्च-गुणवत्ता वाले सांख्यिकीय जानकारी का एक स्थायी भंडार बनाने की कोशिश कर रहे हैं। इस प्रकार, हम लिंक-ओनली उत्तरों से सावधान हो जाते हैं, लिंकरोट के कारण। यदि आप मृत हो जाते हैं, तो क्या आप लिंक पर पूर्ण उद्धरण और जानकारी का सारांश पोस्ट कर सकते हैं?
गूँज - मोनिका

यह वास्तव में अच्छा है। इस जानकारी को जोड़ने के लिए धन्यवाद और CV में आपका स्वागत है।
गूँग - मोनिका

मुझे यह बताना होगा कि आपके उत्तर के पहले भाग में जानकारी बिल्कुल सटीक नहीं है, जो मुझे लगता है कि "प्रारंभिक चित्रमय मॉडल" ("बहुत जल्दी" होना चाहिए) के उपयोग से निहित है। बहुत लंबे समय तक, ग्राफिकल मॉडल का उपयोग इसकी वास्तुकला के सभी पहलुओं को सीखने के लिए किया गया है, उसी तरह जैसे कि तंत्रिका नेटवर्क के पास है। लेकिन कारक रेखांकन में गॉसियंस की जगह लेने वाले सिग्मोइड पर आपका बाद का सुझाव दिलचस्प है!
ग्वुकु

4

रेडफोर्ड नील ने इस क्षेत्र में एक अच्छा काम किया है जो आपको रुचि दे सकता है, जिसमें बायर्सियन ग्राफिकल मॉडल को न्यूरल नेटवर्क के साथ बराबर करने में कुछ प्रत्यक्ष कार्य शामिल हैं। (उनका शोध प्रबंध स्पष्ट रूप से इस विशिष्ट विषय पर था।)

एक बुद्धिमान सारांश प्रदान करने के लिए मैं इस काम से पर्याप्त परिचित नहीं हूं, लेकिन मैं आपको पॉइंटर देने में मदद करना चाहता हूं यदि आप इसे उपयोगी पाते हैं।


मैं नील, मैके आदि के कार्यों से जो समझता हूं , वे बायेसियन ऑप्टिमाइज़ेशन का उपयोग कर रहे हैं, जहां पर अनुकूलन करने के पैरामीटर तंत्रिका भार और पूर्वाग्रह हैं, यहां तक ​​कि यह भी बताते हैं कि तंत्रिका नेटवर्क के एल 2 सामान्यीकरण को गौसेशियन से पहले देखा जा सकता है। वजन। अनुकूलन चर के बीच प्रत्येक परत आदि के भीतर छिपी हुई परतों, न्यूरॉन्स की संख्या को शामिल करने के लिए उस कार्यक्रम को जारी रखा गया है।
ग्वुकु

लेकिन यह अलग है कि ओपी ने क्या कहा क्योंकि तंत्रिका नेटवर्क के आर्किटेक्चर को अगले रन में ट्राईआउट करने के लिए डिजाइन करना एक विशेष मामला है बाइसियन मॉडल का उपयोग करते हुए हाइपर-डिज़ाइन इंजन के रूप में। मुझे लगता है कि ओपी ने जो पूछा, वह तंत्रिका नेटवर्क और बेयसियन मॉडलिंग के बीच "समान स्तर" पर मानचित्रण था।
ग्वुकु

4

यह एक पुराना धागा हो सकता है, लेकिन फिर भी एक प्रासंगिक प्रश्न है।

न्यूरल नेटवर्क्स (एनएन) और प्रोबेबिलिस्टिक ग्राफिकल मॉडल (पीजीएम) के बीच कनेक्शन का सबसे प्रमुख उदाहरण बोल्ट्जमैन मशीनों (और इसकी विविधताएं जैसे प्रतिबंधित बीएम, डीप बीएम आदि) और मार्कोव रैंडम फील्ड के अप्रत्यक्ष पीजीएम हैं।

इसी तरह, विश्वास नेटवर्क (और यह डीएन बीएन आदि की विविधताएं हैं) एक प्रकार के निर्देशित पीजीएम ऑफ बायसियन ग्राफ हैं

अधिक के लिए, देखें:

  1. यान लेकन " एनर्जी बेस्ड लर्निंग पर एक ट्यूटोरियल " (2006)
  2. योशुआ बेंगियो, इयान गुडफेलो और आरोन कोर्टविले, "डीप लर्निंग", Ch 16 & 20 (इस पुस्तक को लिखने के समय तैयारी में,)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.