एक एलएसटीएम में छिपी हुई परतों की संख्या और मेमोरी कोशिकाओं की संख्या का चयन कैसे करें?


28

मैं कुछ मौजूदा शोधों को खोजने की कोशिश कर रहा हूं कि कैसे छिपी परतों की संख्या और एक एलएसटीएम आधारित आरएनएन के आकार का चयन करें।

क्या कोई ऐसा लेख है जहां इस समस्या की जांच की जा रही है, यानी, कितने मेमोरी सेल का उपयोग करना चाहिए? मुझे लगता है कि यह कुल मिलाकर आवेदन पर निर्भर करता है और किस संदर्भ में मॉडल का उपयोग किया जा रहा है, लेकिन शोध क्या कहता है?

जवाबों:


15

आपका प्रश्न काफी व्यापक है, लेकिन यहां कुछ सुझाव दिए गए हैं:

फीडवर्डवर्ड नेटवर्क के लिए, यह प्रश्न देखें :

@ डग के जवाब ने मेरे लिए काम किया है। अंगूठे का एक अतिरिक्त नियम है जो पर्यवेक्षित शिक्षण समस्याओं के लिए मदद करता है। ओवर-फिटिंग में परिणाम नहीं होगा कि छिपे हुए न्यूरॉन्स की संख्या पर ऊपरी सीमा है:

एन=एनरों(α*(एनमैं+एन))

एनमैंएनएनरोंα
एलपीएनरों*(एनमैं+एन)α

एक स्वचालित प्रक्रिया के लिए आप 2 के अल्फा के साथ शुरू करेंगे (अपने प्रशिक्षण डेटा में स्वतंत्रता के कई डिग्री के रूप में) डेटा सेट।

और LSTM के पर विशेष रूप से, आप की जाँच करने के लिए चाहते हो सकता है यह

लेकिन मुख्य बिंदु: आपके द्वारा उपयोग किए जाने वाले छिपे हुए नोड्स की मात्रा के लिए कोई नियम नहीं है, यह कुछ ऐसा है जिसे आपको प्रत्येक मामले के लिए परीक्षण और त्रुटि के द्वारा पता लगाना है


7

LSTM में छिपी हुई परतों की संख्या और मेमोरी सेल की संख्या का चयन हमेशा आवेदन डोमेन और संदर्भ पर निर्भर करता है जहां आप इस LSTM को लागू करना चाहते हैं।

छिपे हुए परतों के लिए। छिपी हुई परत (एस) का परिचय नेटवर्क के लिए गैर-रैखिक व्यवहार प्रदर्शित करना संभव बनाता है।

छिपी हुई इकाइयों की इष्टतम संख्या इनपुट की संख्या से आसानी से छोटी हो सकती है, एन के साथ इनपुट की संख्या को गुणा करने जैसा कोई नियम नहीं है ... यदि आपके पास बहुत सारे प्रशिक्षण उदाहरण हैं, तो आप कई छिपी इकाइयों का उपयोग कर सकते हैं, लेकिन कभी-कभी बस 2 छिपी इकाइयाँ बहुत कम डेटा के साथ सबसे अच्छा काम करती हैं। आमतौर पर लोग साधारण कार्यों के लिए एक छिपी हुई परत का उपयोग करते हैं, लेकिन आजकल गहरे तंत्रिका नेटवर्क आर्किटेक्चर में शोध से पता चलता है कि कई छिपी हुई परतें कठिन वस्तु, हस्त लिखित चरित्र और चेहरे की पहचान की समस्याओं के लिए उपयोगी हो सकती हैं।

I assume it totally depends on the application and in which context the model is being used.


5
गैर-रैखिकता गैर-रैखिक सक्रियण कार्यों के उपयोग के कारण है। परतों की संख्या केवल एनएन की अभिव्यक्ति को बढ़ाती है। आपको इस उत्तर को सही करना चाहिए। रैखिक कार्यों के संयोजन अभी भी रैखिक कार्य हैं (इसलिए, यदि आपके पास कई परतें हैं जो केवल इनपुट के एक रैखिक संयोजन का प्रदर्शन करती हैं, तो इन परतों का संयोजन अभी भी रैखिक होगा)।
nbro

4

सामान्य तौर पर, एलएसटीएम में परतों की संख्या या मेमोरी कोशिकाओं की संख्या का निर्धारण करने के बारे में कोई दिशानिर्देश नहीं हैं।

LSTM में आवश्यक परतों और कोशिकाओं की संख्या समस्या के कई पहलुओं पर निर्भर हो सकती है:

  1. डेटासेट की जटिलता । सुविधाओं की संख्या, डेटा बिंदुओं की संख्या आदि।

  2. डेटा जनरेट करने की प्रक्रिया। डेटा निर्माण प्रक्रिया कैसे महत्वपूर्ण भूमिका निभा सकती है, इसके उदाहरण के बाद।

पूर्व - एक अच्छी तरह से समझी गई अर्थव्यवस्था के सकल घरेलू उत्पाद की भविष्यवाणी की तुलना में तेल की कीमतों की भविष्यवाणी। उत्तरार्द्ध पूर्व की तुलना में बहुत आसान है। इस प्रकार, तेल की कीमतों की भविष्यवाणी करने के साथ-साथ सकल घरेलू उत्पाद की तुलना में अधिक सटीकता के साथ भविष्यवाणी करने के लिए LSTM मेमोरी कोशिकाओं की अधिक संख्या की आवश्यकता हो सकती है।

  1. उपयोग की स्थिति के लिए आवश्यक सटीकता। मेमोरी कोशिकाओं की संख्या इस पर बहुत अधिक निर्भर करेगी । यदि लक्ष्य अत्याधुनिक को हरा देना है - तो सामान्य रूप से अधिक एलएसटीएम कोशिकाओं की आवश्यकता है। उचित भविष्यवाणियों के साथ आने के लक्ष्य की तुलना करें - जिन्हें LSTM कोशिकाओं की कम संख्या की आवश्यकता होगी।

LSTM का उपयोग करते समय मैं इन चरणों का पालन करता हूं:

  1. 2 या 3 मेमोरी कोशिकाओं के साथ एक छिपी हुई परत का प्रयास करें। देखें कि यह बेंचमार्क के खिलाफ कैसा प्रदर्शन करता है। यदि यह समय श्रृंखला की समस्या है तो मैं आमतौर पर शास्त्रीय समय श्रृंखला तकनीकों से एक बेंचमार्क के रूप में पूर्वानुमान लगाता हूं।

  2. कोशिश करें और मेमोरी सेल्स की संख्या बढ़ाएँ। यदि प्रदर्शन बहुत अधिक नहीं बढ़ रहा है, तो अगले चरण पर जाएं।

  3. नेटवर्क को गहरा बनाना शुरू करें यानी मेमोरी सेल की एक छोटी संख्या के साथ एक और परत जोड़ें।

एक तरफ:

नुकसान की फ़ंक्शन के उस वैश्विक मिनीमा तक पहुंचने और सर्वोत्तम हाइपर-मापदंडों को ट्यून करने के लिए समर्पित श्रम की मात्रा की कोई सीमा नहीं है। इसलिए, मॉडलिंग के लिए अंतिम लक्ष्य पर ध्यान केंद्रित करना चाहिए जितना संभव हो उतना सटीकता बढ़ाने की कोशिश करने के बजाय रणनीति होनी चाहिए।

अधिकांश समस्याओं को नेटवर्क की 2-3 परतों का उपयोग करके नियंत्रित किया जा सकता है।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.