क्या तंत्रिका नेटवर्क आमतौर पर प्रशिक्षण के दौरान "किक" करने में थोड़ा समय लेते हैं?


11

मैं पीछे प्रसार का उपयोग करके, वर्गीकरण के लिए एक गहरे तंत्रिका नेटवर्क को प्रशिक्षित करने की कोशिश कर रहा हूं। विशेष रूप से, मैं Tensor Flow पुस्तकालय का उपयोग करके, छवि वर्गीकरण के लिए एक दृढ़ तंत्रिका नेटवर्क का उपयोग कर रहा हूं। प्रशिक्षण के दौरान, मैं कुछ अजीब व्यवहार का अनुभव कर रहा हूं, और मैं सोच रहा हूं कि क्या यह विशिष्ट है, या क्या मैं कुछ गलत कर रहा हूं।

तो, मेरे दृढ़ तंत्रिका नेटवर्क में 8 परतें हैं (5 दृढ़, 3 पूरी तरह से जुड़े हुए)। सभी भार और पूर्वाग्रह छोटे यादृच्छिक संख्याओं पर आरंभ किए जाते हैं। मैंने तब एक चरण आकार निर्धारित किया, और मिनी-बैचों के साथ प्रशिक्षण के साथ आगे बढ़ा, टेन्सर फ्लो के एडम ऑप्टिमाइज़र का उपयोग किया।

मैं जिस अजीब व्यवहार के बारे में बात कर रहा हूं वह यह है कि मेरे प्रशिक्षण डेटा के माध्यम से पहले 10 छोरों के लिए, प्रशिक्षण का नुकसान सामान्य रूप से घटता नहीं है। वजन अपडेट किया जा रहा है, लेकिन प्रशिक्षण का नुकसान लगभग उसी मूल्य पर रहता है, कभी-कभी ऊपर जा रहा है और कभी-कभी मिनी-बैचों के बीच नीचे जा रहा है। यह इस तरह से थोड़ी देर के लिए रहता है, और मुझे हमेशा यह धारणा मिलती है कि नुकसान कभी कम नहीं होने वाला है।

फिर, अचानक, प्रशिक्षण हानि नाटकीय रूप से कम हो जाती है। उदाहरण के लिए, प्रशिक्षण डेटा के माध्यम से लगभग 10 छोरों के भीतर, प्रशिक्षण सटीकता लगभग 20% से लगभग 80% तक जाती है। तब से, सब कुछ अच्छी तरह से परिवर्तित होता है। हर बार जब मैं स्क्रैच से प्रशिक्षण पाइपलाइन चलाता हूं, तो यही बात होती है, और नीचे एक उदाहरण रन को दर्शाने वाला ग्राफ है।

यहां छवि विवरण दर्ज करें

इसलिए, मैं जो सोच रहा हूं, क्या यह सामान्य तंत्रिका नेटवर्क के प्रशिक्षण के साथ सामान्य व्यवहार है, जिससे "किक" करने में थोड़ा समय लगता है। या क्या यह संभावना है कि कुछ ऐसा है जो मैं गलत कर रहा हूं जिससे यह देरी हो रही है?

बहुत बहुत धन्यवाद!


मुझे लगता है कि मैं पार्टी में थोड़ा लेट हूं। लेकिन शायद मैं अभी भी बातचीत में कुछ मूल्य जोड़ सकता हूं। सू ... मेरे लिए यह एक सिग्माइड सक्रियण फ़ंक्शन की तरह लगता है। चूंकि सिग्मॉइड का व्युत्पन्न बहुत छोटे या बहुत बड़े मूल्यों के लिए छोटा है, इसलिए प्रशिक्षण "संतृप्त न्यूरॉन्स" के लिए धीमा हो सकता है। दुर्भाग्य से, मैं बिल्कुल नहीं बता सकता कि आपका सीएनएन आपके द्वारा दिए गए विवरण से कैसा है।
नीमा मौसवी

जवाबों:


7

यह तथ्य कि एल्गोरिथ्म को "किक-इन" करने में थोड़ा समय लगा, विशेष रूप से आश्चर्य की बात नहीं है।

सामान्य तौर पर, तंत्रिका नेटवर्क के पीछे अनुकूलित किए जाने वाले लक्ष्य फ़ंक्शन अत्यधिक बहु-मोडल होते हैं। जैसे, जब तक आपकी समस्या के लिए प्रारंभिक मूल्यों के कुछ प्रकार के चतुर सेट नहीं होते हैं, तब तक यह मानने का कोई कारण नहीं है कि आप एक स्थिर वंश पर शुरू करेंगे। जैसे, आपका अनुकूलन एल्गोरिथ्म लगभग बेतरतीब ढंग से भटक रहा होगा जब तक कि यह नीचे उतरने के लिए काफी खड़ी घाटी न मिल जाए। एक बार जब यह मिल गया है, तो आपको सबसे अधिक ग्रेड-आधारित एल्गोरिदम की अपेक्षा करनी चाहिए कि वह उस विशेष मोड में तुरंत संकीर्ण होना शुरू हो जाए, जो उसके सबसे करीब है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.