के आधार पर हम जब एक सवाल आँकड़ा विज्ञान पर तैनात एक सवाल CrossValidated पर पोस्ट का डुप्लिकेट है क्या करना चाहिए? , मैं CrossValidated ( /stats//a/311318/89653 ) पर पूछे गए एक ही सवाल के अपने जवाब को दोहरा रहा हूं ।
नोट: इस उत्तर के दौरान मैं प्रशिक्षण हानि को कम करने का संदर्भ देता हूं और मैं सत्यापन हानि जैसे मानदंड को रोकने पर चर्चा नहीं करता। मानदंड रोकने का विकल्प नीचे वर्णित प्रक्रिया / अवधारणाओं को प्रभावित नहीं करता है।
एक तंत्रिका नेटवर्क को प्रशिक्षित करने की प्रक्रिया एक नुकसान फ़ंक्शन का न्यूनतम मूल्य खोजना है , जहां न्यूरॉन्स और बीच वजन का एक मैट्रिक्स (या कई मैट्रिक्स) का प्रतिनिधित्व करता है और प्रशिक्षण डाटासेट का प्रतिनिधित्व करता है। मैं के लिए एक सबस्क्रिप्ट का उपयोग संकेत मिलता है कि के बारे में हमारी न्यूनतम केवल वजन अधिक होता (है कि, हम तलाश कर रहे हैं ऐसी है कि कम से कम है), जबकि तय हो गई है।LLL
अब, यदि हम मानते हैं कि हमारे पास में तत्व हैं (अर्थात, नेटवर्क में वेट हैं ), -डिमेन्शनल स्पेस में एक सतह है। एक दृश्य एनालॉग देने के लिए, कल्पना करें कि हमारे पास केवल दो न्यूरॉन वजन ( ) हैं। तब एक आसान ज्यामितीय व्याख्या है: यह एक 3 आयामी अंतरिक्ष में एक सतह है। यह इस तथ्य से उत्पन्न होता है कि भार किसी भी दिए गए मैट्रिक्स के लिए , नुकसान फ़ंक्शन का मूल्यांकन पर किया जा सकता है और यह मान सतह की ऊंचाई बन जाता है।LL
लेकिन गैर-उत्तलता की समस्या है; मेरे द्वारा बताई गई सतह में कई स्थानीय मिनीमा होंगे, और इसलिए ढाल मूलक एल्गोरिदम उन मिनीमा में "अटक" बनने के लिए अतिसंवेदनशील होते हैं, जबकि एक गहरा / निचला / बेहतर समाधान पास में हो सकता है। यदि सभी प्रशिक्षण पुनरावृत्तियों पर अपरिवर्तित है, तो यह होने की संभावना है , क्योंकि सतह किसी दिए गए लिए तय की गई है ; इसकी सभी विशेषताएं स्थिर हैं, जिसमें इसकी विभिन्न मिनीमा शामिल हैं।
इसका एक समाधान मिनी-बैच प्रशिक्षण है जिसे फेरबदल के साथ जोड़ा गया है। किसी दिए गए पुनरावृत्ति के दौरान उनमें से केवल एक सबसेट पर पंक्तियों और प्रशिक्षण को फेरबदल करके, हर पुनरावृत्ति के साथ बदलता है , और यह वास्तव में काफी संभव है कि प्रशिक्षण पुनरावृत्तियों और युगों के पूरे अनुक्रम पर कोई भी दो पुनरावृत्तियों सटीक एक ही पर प्रदर्शन नहीं किया जाएगा। । इसका प्रभाव यह है कि सॉल्वर एक स्थानीय न्यूनतम से आसानी से "उछाल" कर सकता है। कल्पना कीजिए कि solver यात्रा पर एक स्थानीय न्यूनतम में फंस गया है प्रशिक्षण मिनी बैच के साथ । यह स्थानीय न्यूनतम वजन के एक विशेष मूल्य पर मूल्यांकन के अनुरूप है ; हम इसेLL। अगली पुनरावृत्ति पर हमारी हानि सतह का आकार वास्तव में बदल जाता है क्योंकि हम का उपयोग कर रहे हैं , से बहुत भिन्न मान ले सकते हैं और यह बहुत संभव है कि यह किसी स्थानीय न्यूनतम के अनुरूप न हो! अब हम एक क्रमिक अद्यतन की गणना कर सकते हैं और प्रशिक्षण के साथ जारी रख सकते हैं। स्पष्ट होने के लिए: का आकार - सामान्य रूप से - । ध्यान दें कि यहां मैं नुकसान समारोह की चर्चा करते हुए हूँ प्रशिक्षण सेट पर मूल्यांकन ; यह सभी संभावित मूल्यों पर परिभाषित एक पूर्ण सतह हैLLLLLउस नुकसान के मूल्यांकन के बजाय (जो कि केवल एक अदिश राशि है) एक विशिष्ट मूल्य के लिए । यह भी ध्यान दें कि यदि मिनी-बैंग्स को फेरबदल के बिना उपयोग किया जाता है, तो नुकसान सतहों की "विविधीकरण" की डिग्री अभी भी है, लेकिन सॉल्वर द्वारा देखी गई अद्वितीय त्रुटि सतहों की एक परिमित (और अपेक्षाकृत छोटी) संख्या होगी (विशेष रूप से, यह देखेंगे) मिनी-बैचों का एक ही सटीक सेट - और इसलिए नुकसान की सतहों - प्रत्येक अवधि के दौरान)।
एक बात जो मैंने जानबूझकर टाल दी थी, वह मिनी-बैच आकारों की चर्चा थी, क्योंकि इस पर एक लाख राय हैं और इसके महत्वपूर्ण व्यावहारिक निहितार्थ हैं (बड़े बैचों के साथ अधिक से अधिक समानता प्राप्त की जा सकती है)। हालांकि, मेरा मानना है कि निम्नलिखित उल्लेख के लायक है। क्योंकि की प्रत्येक पंक्ति के लिए एक मूल्य की गणना के द्वारा मूल्यांकन किया जाता है वजन मैट्रिक्स का एक सेट के लिए; (यानी, एक विनिमेय ऑपरेटर और संक्षेप या लेने औसत) , की पंक्तियों की व्यवस्था कोई प्रभाव नहीं है जब पूर्ण उपयोग करते हुए बैच ग्रैडिएंट डिसेंट (जब प्रत्येक बैच पूर्ण , और पुनरावृत्तियों और युग एक ही बात है)।L