तंत्रिका नेटवर्क को बढ़ावा देना


21

हाल ही में मैं एडॉबॉस्ट, ग्रेडिएंट बूस्ट जैसे बूस्टिंग एल्गोरिदम सीखने पर काम कर रहा था, और मैंने इस तथ्य को जाना है कि सबसे आम इस्तेमाल किया जाने वाला कमजोर-सीखने वाला पेड़ है। मैं वास्तव में जानना चाहता हूं कि बेस लर्नर के रूप में तंत्रिका नेटवर्क का उपयोग करने के लिए कुछ हालिया सफल उदाहरण हैं (मेरा मतलब कुछ कागज या लेख हैं)।


यह आपके लिए एक दिलचस्प रीड हो सकता है: arxiv.org/pdf/1706.04964.pdf
डैनियल

जवाबों:


8

बूस्टिंग में, कमजोर या अस्थिर क्लासिफायर बेस शिक्षार्थियों के रूप में उपयोग किए जाते हैं। यह मामला है क्योंकि उद्देश्य निर्णय सीमाओं को उत्पन्न करना है जो काफी भिन्न हैं। फिर, एक अच्छा आधार सीखने वाला वह है जो अत्यधिक पक्षपाती है, दूसरे शब्दों में, मूल रूप से आउटपुट तब भी समान रहता है, जब आधार सीखने वालों के लिए प्रशिक्षण मापदंडों को थोड़ा बदल दिया जाता है।

तंत्रिका नेटवर्क में, ड्रॉपआउट एक नियमितीकरण तकनीक है जिसकी तुलना प्रशिक्षण पहनावा से की जा सकती है। अंतर यह है कि पहनावा अव्यक्त स्थान में होता है (न्यूरॉन्स मौजूद हैं या नहीं) इस प्रकार सामान्यीकरण त्रुटि कम हो जाती है।

"प्रत्येक प्रशिक्षण उदाहरण इस प्रकार एक अलग, बेतरतीब ढंग से सैंपल आर्किटेक्चर के लिए ग्रेडिएंट प्रदान करने के रूप में देखा जा सकता है, ताकि अंतिम तंत्रिका नेटवर्क कुशलता से तंत्रिका नेटवर्क के एक बड़े कलाकारों की टुकड़ी का प्रतिनिधित्व करता है, अच्छी सामान्यीकरण क्षमता के साथ" - यहाँ से उद्धृत ।

ऐसी दो तकनीकें हैं: ड्रॉपआउट में न्यूरॉन्स गिराए जाते हैं (मतलब न्यूरॉन्स मौजूद हैं या एक निश्चित संभावना के साथ नहीं) जबकि ड्रॉपकनेक्ट में वज़न गिरा दिया जाता है।

अब, आपके प्रश्न का उत्तर देने के लिए, मेरा मानना ​​है कि तंत्रिका नेटवर्क (या परसेप्ट्रॉन) का उपयोग बूस्टिंग सेटअप में बेस लर्नर के रूप में नहीं किया जाता है क्योंकि वे प्रशिक्षण के लिए धीमे हैं (बस बहुत समय लगता है) और शिक्षार्थी उतने कमजोर नहीं हैं, हालांकि वे कर सकते हैं अधिक अस्थिर होने के लिए सेटअप करें। तो, यह प्रयास के लायक नहीं है।

इस विषय पर शोध हो सकता है, हालाँकि यह अफ़सोस की बात है कि जो विचार अच्छे से काम नहीं करते हैं, वे आमतौर पर सफलतापूर्वक प्रकाशित नहीं होते हैं। हमें ऐसे मार्ग को कवर करने के लिए और अधिक शोध की आवश्यकता है जो कहीं भी नेतृत्व न करें, उर्फ ​​"यह प्रयास करने में परेशान न करें"।

संपादित करें:

मेरे पास इस पर थोड़ा अधिक था और यदि आप बड़े नेटवर्क के ensembles में रुचि रखते हैं, तो आप ऐसे कई नेटवर्क के आउटपुट के संयोजन के तरीकों का उल्लेख कर सकते हैं। अधिकांश लोग कार्य के आधार पर बहुसंख्यक मतदान का औसत या उपयोग करते हैं - यह इष्टतम नहीं हो सकता है। मेरा मानना ​​है कि किसी विशेष रिकॉर्ड पर त्रुटि के अनुसार प्रत्येक नेटवर्क के आउटपुट के लिए वज़न बदलना संभव होना चाहिए। कम सहसंबद्ध आउटपुट, बेहतर अपने दास शासन।


2

मैं देख रहा हूं कि इसका कोई स्वीकृत जवाब नहीं है इसलिए मैं बहुत ही सकारात्मक जवाब दूंगा। हाँ, यह किया जाता है .... जैसे यह JMP प्रो (शायद सबसे अच्छा स्टेट पैकेज जो आपने कभी नहीं सुना है) में उपलब्ध है। http://www.jmp.com/support/help/Overview_of_Neural_Networks.shtml

इस पृष्ठ के बीच में इसका वर्णन है कि इसका उपयोग किस लिए किया जाता है। मैंने सिद्धांत की जांच में कोई चक्र नहीं लगाया है, लेकिन ऐसा लगता है कि वे इसे लागू कर रहे हैं यह अनिवार्य रूप से एक ही बड़े मॉडल में अधिक नोड्स का उपयोग करने के समान परिणाम प्राप्त करता है। लाभ [वे दावा करते हैं] मॉडल फिटिंग की गति में है।

केवल एक बहुत ही मोटे गेज के लिए, मैंने इसकी तुलना एक डेटासेट पर की है जिसमें मेरे पास 2 सिग्मॉइड और 2 गॉसियन नोड्स हैं और एक मॉडल में 12 सिग्मॉइड और 12 गॉसियन नोड्स के खिलाफ मॉडल 6x को बढ़ावा देना और परिणाम मेरे डेटा के परीक्षण सेट पर लगभग समान हैं। ।

मैंने किसी भी गति अंतर को नोटिस नहीं किया ... लेकिन डेटासेट केवल 1600 अंक का है और मैं केवल 12 चर का उपयोग कर रहा हूं, इसलिए अधिक चर वाले बड़े डेटासेट पर यह सच हो सकता है कि ध्यान देने योग्य गणना अंतर है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.