नोट: इस उत्तर के दौरान मैं प्रशिक्षण हानि को कम करने का संदर्भ देता हूं और मैं सत्यापन हानि जैसे मानदंड को रोकने पर चर्चा नहीं करता। मानदंडों को रोकने का विकल्प नीचे वर्णित प्रक्रिया / अवधारणाओं को प्रभावित नहीं करता है।
एक तंत्रिका नेटवर्क को प्रशिक्षित करने की प्रक्रिया एक हानि फ़ंक्शन का न्यूनतम मूल्य खोजना है , जहां न्यूरॉन्स और बीच वजन का एक मैट्रिक्स (या कई मैट्रिक्स) का प्रतिनिधित्व करता है जो प्रशिक्षण डेटासेट का प्रतिनिधित्व करता है। मैं के लिए एक सबस्क्रिप्ट का उपयोग संकेत मिलता है कि के बारे में हमारी न्यूनतम केवल वजन अधिक होता (है कि, हम तलाश कर रहे हैं ऐसी है कि कम से कम है), जबकि तय हो गई है।डब्ल्यूएक्सएक्स ℒ डब्ल्यूडब्ल्यू ℒ एक्सएलएक्स( डब्ल्यू।))डब्ल्यूएक्सएक्सएलडब्ल्यूडब्ल्यूएलएक्स
अब, यदि हम मानते हैं कि हमारे पास में तत्व हैं (अर्थात, नेटवर्क में वेट हैं ), -डिमेन्शनल स्पेस में एक सतह है। एक दृश्य एनालॉग देने के लिए, कल्पना करें कि हमारे पास केवल दो न्यूरॉन वजन ( ) हैं। तब एक आसान ज्यामितीय व्याख्या है: यह एक 3 आयामी अंतरिक्ष में एक सतह है। यह इस तथ्य से उत्पन्न होता है कि वजन किसी भी दिए गए मैट्रिक्स के लिए , नुकसान फ़ंक्शन का मूल्यांकन पर किया जा सकता है और यह मान सतह की ऊंचाई बन जाता है।डब्ल्यू पी ℒ पी + 1 पी = 2 ℒ डब्ल्यू एक्सपीडब्ल्यूपीएलपी+ 1पी= २एलडब्ल्यूएक्स
लेकिन गैर-उत्तलता की समस्या है; मेरे द्वारा बताई गई सतह में कई स्थानीय मिनीमा होंगे, और इसलिए ढाल वंशीय एल्गोरिदम उन मिनीमा में "अटक" बनने के लिए अतिसंवेदनशील होते हैं, जबकि एक गहरा / निचला / बेहतर समाधान पास में झूठ हो सकता है। यदि सभी प्रशिक्षण पुनरावृत्तियों पर अपरिवर्तित है, तो यह होने की संभावना है , क्योंकि सतह किसी दिए गए लिए तय की गई है ; इसकी सभी विशेषताएं स्थिर हैं, जिसमें इसकी विभिन्न मिनीमा शामिल हैं।एक्सएक्सएक्स
इसका एक समाधान मिनी-बैच प्रशिक्षण है जिसे फेरबदल के साथ जोड़ा गया है। किसी दिए गए पुनरावृत्ति के दौरान उनमें से केवल एक सबसेट पर पंक्तियों और प्रशिक्षण को फेरबदल करके, हर पुनरावृत्ति के साथ बदल जाता है , और यह वास्तव में काफी संभव है कि प्रशिक्षण पुनरावृत्तियों और युगों के पूरे अनुक्रम पर कोई भी दो पुनरावृत्तियों सटीक एक ही पर प्रदर्शन नहीं किया जाएगा। । इसका प्रभाव यह है कि सॉल्वर एक स्थानीय न्यूनतम से आसानी से "उछाल" कर सकता है। कल्पना कीजिए कि सॉल्वर मिनी-बैच प्रशिक्षण के साथ पुनरावृत्ति पर एक स्थानीय न्यूनतम में फंस गया है । यह स्थानीय न्यूनतम वजन के एक विशेष मूल्य पर मूल्यांकन के अनुरूप है ; हम इसेएक्सएक्समैंℒएक्समैंएलएलएक्समैं(डब्ल्यू।)मैं)। अगली पुनरावृत्ति पर हमारी हानि सतह का आकार वास्तव में बदल जाता है क्योंकि हम का उपयोग कर रहे हैं , से बहुत भिन्न मान ले सकते हैं और यह काफी संभव है कि यह स्थानीय न्यूनतम के अनुरूप न हो! अब हम एक क्रमिक अद्यतन की गणना कर सकते हैं और प्रशिक्षण के साथ जारी रख सकते हैं। स्पष्ट होने के लिए: का आकार - सामान्य रूप से - । ध्यान दें कि यहां मैं नुकसान समारोह की चर्चा करते हुए हूँ प्रशिक्षण सेट पर मूल्यांकन ; यह सभी संभावित मूल्यों पर परिभाषित एक पूर्ण सतह हैएक्समैं + 1एलएक्समैं + 1(डब्ल्यू।)मैं)एलएक्समैं(डब्ल्यू।)मैं)एलएक्समैं + 1एलएक्समैंएलएक्सडब्ल्यूउस नुकसान के मूल्यांकन के बजाय, जो एक विशिष्ट मूल्य के लिए (जो सिर्फ एक अदिश राशि है) । यह भी ध्यान दें कि यदि मिनी-बैचेस को फेरबदल के बिना उपयोग किया जाता है, तो नुकसान सतहों की "विविधीकरण" की एक डिग्री अभी भी है, लेकिन सॉल्वर द्वारा देखी गई अद्वितीय त्रुटि सतहों की एक परिमित (और अपेक्षाकृत छोटी) संख्या होगी (विशेष रूप से, यह देखेंगे) मिनी-बैचों का एक ही सटीक सेट - और इसलिए नुकसान की सतहों - प्रत्येक अवधि के दौरान)।डब्ल्यू
एक बात जो मैंने जानबूझकर टाल दी थी, वह मिनी-बैच आकारों की चर्चा थी, क्योंकि इस पर एक लाख राय हैं और इसके महत्वपूर्ण व्यावहारिक निहितार्थ हैं (बड़े बैचों के साथ अधिक से अधिक समानता प्राप्त की जा सकती है)। हालांकि, मेरा मानना है कि निम्नलिखित उल्लेख के लायक है। क्योंकि का मूल्यांकन की प्रत्येक पंक्ति के लिए मान की गणना करके किया जाता है (और एक औसत ऑपरेटर; यानी, एक मैटेरियल ऑपरेटर) जो कि दिए गए वेट मैट्रिसेस सेट के लिए होता है , की पंक्तियों की व्यवस्था का पूर्ण उपयोग करते समय कोई प्रभाव नहीं पड़ता है। बैच ग्रैडिएंट डिसेंट (जब प्रत्येक बैच पूर्ण , और पुनरावृत्तियों और युग एक ही बात है)।एलएक्सडब्ल्यूएक्स एक्स