तंत्रिका नेटवर्क में अधिकतम क्या है?


42

क्या कोई समझा सकता है कि तंत्रिका नेटवर्क में अधिकतम यूनिट क्या करती हैं? वे कैसे प्रदर्शन करते हैं और पारंपरिक इकाइयों से अलग कैसे होते हैं?

मैंने गुडफेलो एट अल द्वारा 2013 के "मैक्सआउट नेटवर्क" पेपर को पढ़ने की कोशिश की (प्रोफेसर योशुआ बेंगियो के समूह से), लेकिन मैं इसे प्राप्त नहीं करता हूं।

जवाबों:


26

एक अधिकतम परत केवल एक परत है जहां सक्रियण फ़ंक्शन इनपुट की अधिकतम है। जैसा कि कागज में कहा गया है, यहां तक ​​कि 2 मैक्सआउट इकाइयों वाला एक एमएलपी किसी भी फ़ंक्शन को अनुमानित कर सकता है। वे दो कारण देते हैं कि अधिकतम प्रदर्शन अच्छा क्यों हो सकता है, लेकिन मुख्य कारण वे निम्नलिखित हैं -

ड्रॉपआउट को औसत मॉडल का एक रूप माना जा सकता है जिसमें एक यादृच्छिक सबनेटवर्क को प्रत्येक पुनरावृत्ति पर प्रशिक्षित किया जाता है और अंत में विभिन्न ऐसे यादृच्छिक नेटवर्क का वजन औसतन होता है। चूँकि कोई स्पष्ट रूप से वज़न का औसत नहीं कर सकता है, एक सन्निकटन का उपयोग किया जाता है। यह अनुमान रैखिक नेटवर्क के लिए सटीक है
। अधिकतम में, वे इनपुट को अधिकतम परत तक नहीं छोड़ते हैं। इस प्रकार डेटा बिंदु के लिए अधिकतम मान आउटपुट करने वाले इनपुट की पहचान अपरिवर्तित रहती है। इस प्रकार ड्रॉपआउट केवल एमएलपी के रैखिक भाग में होता है, लेकिन अधिकतम परत के कारण कोई भी फ़ंक्शन को अनुमानित कर सकता है।
चूंकि ड्रॉपआउट रैखिक भाग में ही होता है, वे अनुमान लगाते हैं कि इससे औसतन अधिक कुशल मॉडल होता है क्योंकि औसतन रैखिक नेटवर्क के लिए सटीक होता है।

उनका कोड यहाँ उपलब्ध है


1
धन्यवाद! मैं समझता हूं कि अब अधिकतम कैसे करना है। मेरे कुछ सवाल है। (1) तो आप जो आपने "मैक्सआउट में लिखा है, उसके अनुसार ड्रॉपआउट करने से पहले ड्रॉपआउट नहीं करते हैं, वे मैक्सआउट परत के इनपुट को नहीं छोड़ते हैं।" (२) एमएलपी के रैखिक भाग से क्या तात्पर्य है? "इस प्रकार ड्रॉपआउट केवल एमएलपी के रैखिक भाग में होता है, लेकिन अधिकतम परत के कारण कोई भी किसी भी फ़ंक्शन को लगभग अनुमानित कर सकता है।" (3) बेहतर औसत क्यों? "जैसा कि ड्रॉपआउट रैखिक भाग में ही होता है, वे अनुमान लगाते हैं कि इससे अधिक कुशल मॉडल औसत हो जाता है क्योंकि औसतन रैखिक नेटवर्क के लिए सटीक होता है।"
रॉकइंटरस्टार

2
(1) तो मैं जो समझ रहा हूं, उससे एक अधिकतम परत नोड और । तो अधिकतम नोड तक इनपुट नोड्स खुद परतों के नोड्स का रैखिक संयोजन गहरा नीचे होता है। ड्रॉपआउट अधिकतम परत के लिए या z परत के लिए नहीं किया जाता है, लेकिन यह उससे अधिक गहरी परतों के लिए किया जाता है। (2) रैखिक भाग से, इसका मतलब है छिपी हुई परतें जिनमें केवल रैखिक सक्रियण फ़ंक्शन हैं (3) रैखिक नेटवर्क के लिए बेहतर औसत, ड्रॉपआउट द्वारा उपयोग की जाने वाली औसत योजना सटीक है। सामान्य तौर पर एनएन रैखिक नहीं होते हैं लेकिन अधिकतम के साथ, वे अधिकांश एनएन रैखिक बनाते हैं और केवल रैखिक भाग पर ड्रॉपआउट करते हैं। max(zi)zi=kxk
ऑप्ट

धन्यवाद! के लिए (3) "सटीक" से क्या मतलब है, और एनएन अधिकतम के साथ रैखिक क्यों बन जाता है? आपकी मदद के लिए बहुत बहुत शुक्रिया।
रॉकइन्स्टार

1
नाह मैक्सआउट एक नेटवर्क आर्किटेक्चर है। ड्रॉपआउट एक नियमितीकरण तकनीक है
ऑप्ट

1
-1 यह गुडफेलो के मैक्सआउट एक्टिवेशन फंक्शन की सही परिभाषा नहीं है। @ Toussaint-louverture द्वारा उत्तर सही मिलता है। आंकड़े.stackexchange.com/a/298705/20587
Trisoloriansunscreen

15

एक अधिकतम यूनिट एक टुकड़े-टुकड़े रैखिक, उत्तल फ़ंक्शन को k टुकड़ों तक सीख सकती है । 1

तो जब k 2 होता है, तो आप ReLU, निरपेक्ष ReLU, टपका हुआ ReLU, इत्यादि लागू कर सकते हैं, या यह एक नया फ़ंक्शन लागू करना सीख सकता है। यदि k को 10 कहा जाता है, तो आप लगभग उत्तल कार्य भी सीख सकते हैं।

जब k 2 है:

मैक्सआउट न्यूरॉन फ़ंक्शन गणना करता है । ReLU और Leaky दोनों ReLU इस फॉर्म का एक विशेष मामला है (उदाहरण के लिए, ReLU के लिए हमारे पास ) है। मैक्सआउट न्यूरॉन इसलिए एक ReLU इकाई (ऑपरेशन के रैखिक शासन, कोई संतृप्ति) के सभी लाभों का आनंद लेता है और इसकी कमियां (मरते हुए ReLU) नहीं है।max(w1Tx+b1,w2Tx+b2)w1,b1=0

हालांकि, ReLU न्यूरॉन्स के विपरीत यह हर एक न्यूरॉन के लिए मापदंडों की संख्या को दोगुना करता है, जिससे मापदंडों की एक उच्च कुल संख्या होती है। 2

आप यहाँ विवरण पढ़ सकते हैं:
1. डीएल पुस्तक
2. http://cs231n.github.io/neural-networks-1


यह केवल पूर्वाग्रह मापदंडों की संख्या को दोगुना करता है, सभी भार को नहीं।
हंस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.