LSTM की किन परतों पर ड्रॉपआउट?

11

LSTMड्रॉप - आउट के साथ एक बहु-परत का उपयोग करना , क्या सभी छिपी हुई परतों के साथ-साथ आउटपुट घने परतों पर ड्रॉपआउट डालना उचित है? हिंटन के पेपर में (जिसने ड्रॉपआउट का प्रस्ताव रखा) उसने केवल ड्राउट परतों पर ड्रॉपआउट रखा, लेकिन ऐसा इसलिए था क्योंकि छिपी हुई आंतरिक परतें दृढ़ थीं।

जाहिर है, मैं अपने विशिष्ट मॉडल के लिए परीक्षण कर सकता हूं, लेकिन मुझे आश्चर्य है कि क्या इस पर सहमति थी?

— BigBadMe
स्रोत

3

यदि आप रुचि रखते हैं तो इस पेपर में आवर्तक नेटवर्क में ड्रॉपआउट पर कुछ अच्छी चर्चा करें: arxiv.org/abs/1512.05287 Gal, Yarin, और Zoubin Ghahramani। "आवर्ती तंत्रिका नेटवर्क में ड्रॉपआउट का एक सैद्धांतिक रूप से आधारभूत अनुप्रयोग।" न्यूरल इन्फर्मेशन प्रोसेसिंग सिस्टम्स में प्रगति। 2016.

— redhqs

2

@Media ने नीचे क्या कहा इसकी पुष्टि करने के लिए लगता है

— BigBadMe

12

मैं LSTMएक विशिष्ट और स्पष्ट कारण के लिए कोशिकाओं में ड्रॉप आउट नहीं जोड़ना पसंद करता हूं । LSTMsलंबे शब्दों के लिए अच्छे हैं, लेकिन उनके बारे में एक महत्वपूर्ण बात यह है कि वे एक साथ कई चीजों को याद करने में बहुत अच्छी तरह से नहीं हैं। ड्रॉप आउट का तर्क किसी भी विशिष्ट न्यूरॉन पर निर्भर नहीं होने के लिए न्यूरॉन्स में शोर जोड़ने के लिए है। LSTMकोशिकाओं के लिए ड्रॉप आउट जोड़कर , कुछ भूल जाने का मौका है जिसे नहीं भूलना चाहिए। नतीजतन, जैसे CNNsमैं हमेशा परतों के बाद घने परतों में ड्रॉप आउट का उपयोग करना पसंद करता हूं LSTM।

— मीडिया
स्रोत

1

मैं समझता हूं कि आप क्या कह रहे हैं, और यह समझ में आता है, लेकिन फिर, केआरएस या टेन्सरफ्लो में एलएसटीएम सेल क्यों लागू होता है, अगर यह प्रभाव में है, तो ड्रॉपआउट (और आवर्तक ड्रॉपआउट) को निर्दिष्ट करने की क्षमता प्रदान करता है, एक एलएमएम को कैसे माना जाता है समारोह?

— BigBadMe

3

में CNNsconvolutional परतों में वजन की छोटी संख्या की वजह से रूपा परतों में उन्हें इस्तेमाल करने के लिए नहीं यह पूरी तरह से स्वीकार्य है। में LSTMsदूसरे हाथ पर, वजन की संख्या कम नहीं है। जैसा कि मैंने कार्यों में उल्लेख किया है कि कई चीजें हैं जिन्हें याद रखना है, मैं ड्रॉपआउट का उपयोग नहीं करने की कोशिश करता हूं, लेकिन यह क्रियाओं के तनाव की तरह है कि आपके पास कई निर्भरताएं नहीं हैं, मुझे लगता है कि यह बहुत बुरा नहीं है। वैसे, यह मेरा अनुभव था। विभिन्न एप्लिकेशन डोमेन के लिए अन्य उत्तर हो सकते हैं।

— मीडिया

1

दोनों उत्तरों से महान व्याख्या! (+ 1)

— आदित्य

5

एक आम सहमति नहीं है जो सभी मॉडल प्रकारों में साबित की जा सकती है।

नियमितीकरण के एक रूप के रूप में छोड़ने की सोच , इसे लागू करने के लिए कितना (और जहां), स्वाभाविक रूप से डेटासेट के प्रकार और आकार पर निर्भर करेगा, साथ ही साथ आपके निर्मित मॉडल की जटिलता (यह कितना बड़ा है) पर भी निर्भर करेगा।

— n1k31t4
स्रोत