गहरे तंत्रिका नेटवर्क के प्रशिक्षण के लिए शुरुआती रोक का ठीक से उपयोग कैसे करें?


20

मेरे पास एक गहरा तंत्रिका नेटवर्क मॉडल है और मुझे इसे अपने डेटासेट पर प्रशिक्षित करने की आवश्यकता है जिसमें लगभग 100,000 उदाहरण हैं, मेरे सत्यापन डेटा में लगभग 1000 उदाहरण हैं। क्योंकि प्रत्येक उदाहरण (प्रत्येक उदाहरण के लिए लगभग 0.5s) को प्रशिक्षित करने के लिए समय लगता है और ओवरफिटिंग से बचने के लिए, मैं अनावश्यक गणना को रोकने के लिए शुरुआती रोक लागू करना चाहूंगा। लेकिन मुझे यकीन नहीं है कि अपने तंत्रिका नेटवर्क को जल्दी से रोकने के साथ कैसे ठीक से प्रशिक्षित किया जाए, कई चीजें जो मुझे अब समझ में नहीं आती हैं:

  • एक अच्छा सत्यापन आवृत्ति क्या होगी? क्या मुझे प्रत्येक युग के अंत में सत्यापन डेटा पर अपने मॉडल की जांच करनी चाहिए? (मेरे बैच का आकार 1 है)

  • क्या यह ऐसा मामला है कि पहले कुछ युग बेहतर परिणाम में बदलने से पहले खराब परिणाम दे सकते हैं? उस स्थिति में, क्या हमें जल्दी रुकने की जाँच करने से पहले अपने नेटवर्क को कई युगों के लिए प्रशिक्षित करना चाहिए?

  • जब सत्यापन हानि ऊपर और नीचे जा सकती है तो मामले को कैसे संभालें? उस स्थिति में, जल्दी रोकना मेरे मॉडल को आगे सीखने से रोक सकता है, है ना?

पहले ही, आपका बहुत धन्यवाद।


मैं दृढ़ता से एक से अधिक बैच आकार की सलाह देता हूं। सामान्य आकार 32, 64 और 128 हैं।
कंप्यूटर

जवाबों:


20

एक अच्छा सत्यापन आवृत्ति क्या होगी? क्या मुझे प्रत्येक युग के अंत में सत्यापन डेटा पर अपने मॉडल की जांच करनी चाहिए? (मेरे बैच का आकार 1 है)

कोई स्वर्ण नियम नहीं है, प्रत्येक युग के बाद सत्यापन त्रुटि की गणना करना काफी सामान्य है। चूंकि आपका सत्यापन आपके प्रशिक्षण सेट से बहुत छोटा है, इसलिए यह प्रशिक्षण को धीमा नहीं करेगा।

क्या यह ऐसा मामला है कि पहले कुछ युग बेहतर परिणाम में बदलने से पहले खराब परिणाम दे सकते हैं?

हाँ

उस स्थिति में, क्या हमें जल्दी रुकने की जाँच करने से पहले अपने नेटवर्क को कई युगों के लिए प्रशिक्षित करना चाहिए?

आप कर सकते हैं, लेकिन फिर मुद्दा यह है कि कितने युगों को छोड़ देना चाहिए। इसलिए व्यवहार में, ज्यादातर लोग किसी भी युग को नहीं छोड़ते हैं।

जब सत्यापन हानि ऊपर और नीचे जा सकती है तो मामले को कैसे संभालें? उस स्थिति में, जल्दी रोकना मेरे मॉडल को आगे सीखने से रोक सकता है, है ना?

लोग आम तौर पर एक धैर्य को परिभाषित करते हैं, अर्थात् सत्यापन सेट पर कोई प्रगति नहीं होने पर जल्दी रुकने से पहले इंतजार करने की संख्या। धैर्य अक्सर 10 और 100 के बीच निर्धारित होता है (10 या 20 अधिक सामान्य है), लेकिन यह वास्तव में आपके डेटासेट और नेटवर्क पर निर्भर करता है।

धैर्य के साथ उदाहरण = 10:

यहाँ छवि विवरण दर्ज करें


क्या किसी को मॉडल का उपयोग तब करना चाहिए जब जल्दी बंद हो जाए या मॉडल patienceबंद हो जाए (बंद होने के बाद 'सबसे अच्छा' बिना किसी सुधार के)?
स्टिकंडरफ़्लो

2
@displayname धैर्य से पहले का समय रुक गया
फ्रेंक डर्नोनकोर्ट

11

मैं हाल ही में एक पेपर आया जिसका शीर्षक था "अर्ली स्टॉपिंग - बट व्हेन?" लुत्ज़ प्रेचल द्वारा कि उनके पास प्रत्येक के लिए क्या करता है और सूत्रों के स्पष्ट स्पष्टीकरण के साथ शुरुआती रोक का उपयोग करने के कई महान उदाहरण हैं।

उम्मीद है कि इस पर एक नज़र लेने में मदद मिल सकती है।


कागज एक अजीब शैली में लिखा गया है लेकिन जानकारी उपयोगी थी।
जोसिया

3

अन्य उत्कृष्ट उत्तरों को जोड़ने के लिए, आप भी रोक नहीं सकते हैं। मैं आमतौर पर:

  • NN को और अधिक समय तक चलाने के लिए मैंने सोचा कि समझदार है,
  • मॉडल को बचाने के प्रत्येक एन युग, और
  • जब मैं देखता हूं कि प्रशिक्षण की हानि स्थिर हो गई है, तो मैं केवल सबसे कम सत्यापन हानि के साथ मॉडल चुनता हूं।

बेशक, यह केवल तभी समझ में आता है जब आप मिनट के हिसाब से भुगतान नहीं करते (या लागत काफी कम होती है) और जब आप मैन्युअल रूप से प्रशिक्षण रोक सकते हैं। उल्टा यह है कि दूरदर्शिता में सबसे कम सत्यापन त्रुटि निर्धारित करना बहुत आसान है।


1
मैं भी यही करता हूं। यद्यपि आप की तरह मैं जानता हूँ कि यह एक लक्जरी है। जब मॉडलों ने बहुत अधिक स्थान लेना शुरू कर दिया, तो मैंने पाया कि पिछले नुकसान और एफ-स्कोर के आंकड़ों का उपयोग करके मैं प्रोग्रामेटिक रूप से यह निर्धारित कर सकता हूं कि पिछले मॉडल को भी कब हटाया जाए - इसलिए आप उम्मीदवार सबसे अच्छे मॉडल की एक चलती खिड़की के साथ समाप्त होते हैं जो मोटे तौर पर उपभोग करते हैं। बहुत हार्ड डिस्क स्थान के रूप में वे लायक होने की संभावना है।
QA कलेक्टिव
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.