प्रतिबंधित बोल्ट्जमैन मशीनों (आरबीएम) के आधुनिक उपयोग के मामले?


16

पृष्ठभूमि: विगत ४ वर्षों में बहुत से आधुनिक शोध (पोस्ट एलेक्सनेट ) कला वर्गीकरण परिणामों की स्थिति को प्राप्त करने के लिए तंत्रिका नेटवर्क के लिए सामान्य ढोंग का उपयोग करने से दूर चले गए हैं।

उदाहरण के लिए, यहाँ mnist के लिए शीर्ष परिणामों में शीर्ष 50 के केवल 2 पेपर शामिल हैं , जो जेनेरिक मॉडल का उपयोग करते हैं, दोनों आरबीएम के हैं। अन्य 48 जीतने वाले पेपर विभिन्न भेदभावपूर्ण फीड फॉरवर्ड आर्किटेक्चर के बारे में हैं, जो आरबीएम और कई पुराने तंत्रिका नेटवर्क में उपयोग किए जाने वाले सिग्मोइड से अलग बेहतर / उपन्यास वजन आरंभीकरण और सक्रियण कार्यों को खोजने के लिए किए जा रहे प्रयासों के साथ हैं।

प्रश्न: क्या प्रतिबंधित बोल्ट्जमैन मशीनों का उपयोग करने का कोई आधुनिक कारण है?

यदि नहीं, तो क्या कोई डी मॉडिफिकेशन है जो इन फीड फॉरवर्ड आर्किटेक्चर पर लागू हो सकता है ताकि उनकी किसी भी लेयर को जेनरेट किया जा सके?

प्रेरणा: मैं पूछता हूं क्योंकि कुछ मॉडल जो मैं उपलब्ध देख रहा हूं, आमतौर पर आरबीएम पर भिन्न होते हैं, जरूरी नहीं कि इन जेनेरिक परतों / मॉडल, और वीज़ा वर्सा के लिए स्पष्ट अनुरूप भेदभावपूर्ण समकक्ष हों। उदाहरण के लिए:

  • mcRBM

  • ssRBM

  • CRBM (हालांकि कोई CNN उपयोग किए जाने वाले फ़ीड फॉरवर्ड आर्किटेक्चर का तर्क दे सकता है वह है भेदभावपूर्ण अनुरूप वास्तुकला)

इसके अलावा, ये स्पष्ट रूप से 2010, 2011 और 2009 से पहले एलेक्सनेट के रूप में अच्छी तरह से पूर्व थे।


3
इसके मज़े के लिए, मैंने ऑटो रिग्रेशन के माध्यम से NN को एक जेनेरिक फीड फ़ॉरवर्ड बनाया। power2predict.edublogs.org/2016/06/06/26/…
क्रिस

जवाबों:


6

यह एक पुराना प्रश्न है, लेकिन चूंकि यह अनिवार्य रूप से 'सर्वोत्तम प्रथाओं' के लिए पूछता है, बजाय इसके कि वास्तव में तकनीकी रूप से क्या संभव है (यानी, बहुत अधिक शोध पर ध्यान देने की आवश्यकता नहीं है), वर्तमान सर्वोत्तम अभ्यास कुछ इस तरह हैं:

  • वर्तमान में RBM का आमतौर पर उपयोग नहीं किया जाता है
  • जहां संभव हो वहां लीनियर मॉडल (रैखिक प्रतिगमन, लॉजिस्टिक रिग्रेशन) का उपयोग किया जाता है
  • अन्यथा गहरी फीड-फ़ॉर्वर्ड नेटवर्क जिसमें परतें हैं जैसे कि पूरी तरह से जुड़ी हुई परतें, संकरी परतें, और कुछ प्रकार के नियमितीकरण परतों में फेंकना, जैसे ड्रॉपआउट, और हाल ही में बैच-सामान्यीकरण
  • निश्चित रूप से बीच में सक्रियण परतों के साथ, आमतौर पर ReLU, लेकिन tanh और सिग्मॉइड का भी उपयोग किया जाता है
  • और शायद कुछ अधिकतम-पूलिंग (हमेशा नहीं: औसत पूलिंग और अन्य का उपयोग किया जाता है)

सामान्य उपयोग के लिए, सामान्य तकनीकों में शामिल हैं:


1

मुझे हाल ही में "बोल्ट्ज़मैन एनकोडेड एडवांसरियल मशीन्स" पर यह पेपर मिला, जो सीएनएन के साथ आरबीएम को एक जेनेरेटिव मॉडल के रूप में एकीकृत करता है।

लेखक दिखाते हैं कि यह गणितीय रूप से "बेहतर" है, और कुछ खिलौना उदाहरण दिखाते हैं जहां बीईएएम अन्य जीएएन मॉडल की तुलना में डेटा वितरण को सटीक रूप से सीखने में अधिक सक्षम है।

सेलेबा चेहरों की "वास्तविक दुनिया" का बेंचमार्क बहुत कम प्रभावशाली था - यह स्पष्ट नहीं है कि बीईएएम बेहतर या यहां तक ​​कि अन्य लोकप्रिय जीएएन भी करता है। हालांकि, इस सेटिंग में आरबीएम का उपयोग निश्चित रूप से दिलचस्प है।


क्या आपको लगता है कि इस विफलता का श्रेय बीईएएम के खोज स्थान को दिया जाता है जो मॉडल परिभाषा में स्वतंत्रता आंतरिक की डिग्री के अधिक सेट की अनुमति देता है?
वस्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.