DropOut कंसिस्टेंट लेयर्स के साथ कैसे काम करता है?


10

ड्रॉपआउट ( कागज , स्पष्टीकरण ) कुछ न्यूरॉन्स के उत्पादन को शून्य पर सेट करता है। तो एक MLP के लिए, आप Iris फूल डेटासेट के लिए निम्नलिखित वास्तुकला रख सकते हैं :

4 : 50 (tanh) : dropout (0.5) : 20 (tanh) : 3 (softmax)

यह इस तरह काम करेगा:

softmax(W3tanh(W2mask(D,tanh(W1input_vector)))

साथ , डब्ल्यू 1आर 50 × 4 , डी { 0 , 1 } 50 × 1 , डब्ल्यू 2आर 20 × 50 , डब्ल्यू 3आर 20 × 3 (सरलीकृत के लिए पूर्वाग्रहों की अनदेखी)।input_vectorR4×1W1R50×4D{0,1}50×1W2R20×50W3R20×3

साथ = ( d ) i j औरD=(d)ij

dijB(1,p=0.5)

जहां ऑपरेशन M के साथ D बिंदु-वार गुणा करता है (देखें Hadamard उत्पाद )।mask(D,M)DM

इसलिए हम हर बार मैट्रिक्स नमूना लेते हैं और इस तरह ड्रॉपआउट 0 के साथ नोड का गुणन बन जाता है।D

लेकिन सीएनएन के लिए, यह मेरे लिए स्पष्ट नहीं है कि वास्तव में क्या बाहर निकाला गया है। मैं तीन संभावनाएं देख सकता हूं:

  1. पूर्ण फ़ीचर मैप्स को छोड़ना (इसलिए कर्नेल)
  2. कर्नेल के एक तत्व को छोड़ना (कर्नेल के एक तत्व को 0 से बदलना)
  3. सुविधा मानचित्र के एक तत्व को छोड़ना

कृपया अपने उत्तर में एक संदर्भ / उद्धरण जोड़ें।

मेरे विचार

मुझे लगता है कि लासगैन करता है (3) ( कोड देखें )। यह लागू करने के लिए सबसे सरल हो सकता है। हालांकि, मूल विचार के करीब (1) हो सकता है।

कैफ के लिए समान लगता है ( कोड देखें )। टेंसरफ़्लो के लिए, उपयोगकर्ता को फैसला करना होगा ( कोड - मुझे यकीन नहीं है कि जब noise_shape=Noneपास होता है तो क्या होता है)।

यह कैसा होना चाहिए

(2) और (3) का कोई मतलब नहीं है क्योंकि यह नेटवर्क को स्पेसियन पोजिशंस के साथ जोड़ देगा, जो शायद वांछित है। इसलिए (1) एकमात्र संस्करण है जो समझ में आता है। लेकिन मुझे यकीन नहीं है कि यदि आप डिफ़ॉल्ट कार्यान्वयन का उपयोग करते हैं तो क्या होगा।


मैंने Lasagne उपयोगकर्ता समूह में भी प्रश्न पूछा है ।
मार्टिन थोमा

मैंने कहा कि (2) और (3) एक अच्छा विचार नहीं हो सकता है क्योंकि यह नेटवर्क को स्थानिक रूप से सूचना फैलाने के लिए मजबूर कर सकता है।
मार्टिन थोमा

जवाबों:


1

lW(l+1)

अधिक जानकारी के लिए, मुझे लगता है कि इस पत्र में धारा 3 आपकी मदद कर सकती है: मैक्स-पूलिंग और कन्वेंशनल ड्रॉपआउट । विशेष रूप से ३.२।

जब आप परीक्षण करते हैं, तो आप नेटवर्क के सभी नोड्स का उपयोग करते हैं, लेकिन फ़िल्टरिंग के भार को बनाए रखने की संभावना के अनुसार बढ़ाया जाता है, जैसा कि पेपर में बताया गया है।

कृपया मेरे उत्तर को परिष्कृत या ठीक करने के लिए स्वतंत्र महसूस करें।

उम्मीद है कि यह कम से कम मदद करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.