ड्रॉपआउट वास्तव में न्यूरॉन्स को नहीं हटाता है, इसका सिर्फ इतना है कि उन विशेष न्यूरॉन्स डेटा के दिए गए बैच के लिए कोई भूमिका नहीं निभाते हैं (सक्रिय नहीं होते हैं)।
उदाहरण - मान लीजिए कि 8 लेन की सड़क है - जब ट्रक आते हैं, तो वे गलियों से होकर गुजरते हैं 1,2,4,6,7, जब कारें आती हैं, तो वे गलियों से होकर गुजरती हैं 2,3,4,7,8 और जब बाइक आती हैं , वे 1,2,5,8 लेन से गुजरते हैं। इसलिए किसी भी वाहन की परवाह किए बिना, सभी लेन वहां हैं, लेकिन उनमें से केवल कुछ का उपयोग किया जाता है।
इसी तरह, सभी न्यूरॉन्स पूरे मॉडल में उपयोग किए जाते हैं, लेकिन डेटा के एक विशेष बैच के लिए केवल न्यूरॉन्स का एक सबसेट सक्रिय होता है। और मॉडल को बाद में नहीं काटा जाता है, मॉडल जटिलता वैसी ही बनी रहती है जैसी वह है।
ड्रॉपआउट का उपयोग क्यों करें?
जैसा कि दीप लर्निंग बुक में इयान गुडफेलो द्वारा दिया गया है,
ड्रॉपआउट अन्य मानक कम्प्यूटेशनल रूप से सस्ती नियमितताओं की तुलना में अधिक प्रभावी है, जैसे कि वजन क्षय, फिल्टर मानक बाधाओं और विरल गतिविधि नियमितीकरण।
वह भी कहता है-
ड्रॉपआउट का एक फायदा यह है कि यह कम्प्यूटेशनल रूप से बहुत सस्ता है।
ड्रॉपआउट का एक और महत्वपूर्ण लाभ यह है कि यह मॉडल या प्रशिक्षण प्रक्रिया के प्रकार को महत्वपूर्ण रूप से सीमित नहीं करता है जिसका उपयोग किया जा सकता है। यह लगभग किसी भी मॉडल के साथ अच्छी तरह से काम करता है जो वितरित प्रतिनिधित्व का उपयोग करता है और स्टोचस्टिक ग्रेडिएंट वंश के साथ प्रशिक्षित किया जा सकता है। इसमें फीडवर्डवर्ड न्यूरल नेटवर्क, प्रोबेबिलिस्टिक मॉडल जैसे कि प्रतिबंधित बोल्ट्ज़मन मशीनें (श्रीवास्तव एट अल।, 2014) और आवर्तक तंत्रिका नेटवर्क (बायर और ओसेन्डोरर, 2014; पास्कानु एट अल।, 2014 ए) शामिल हैं।
यह पुस्तक कहती है-
मुख्य विचार यह है कि एक परत के आउटपुट मानों में शोर को पेश करने से घटना के पैटर्न को तोड़ा जा सकता है जो महत्वपूर्ण नहीं हैं, जो कि नेटवर्क शोर को याद नहीं होने पर याद करना शुरू कर देगा।