नियमितीकरण लगभग सभी मशीन लर्निंग एल्गोरिदम में नियोजित होता है जहां हम प्रशिक्षण डेटा के परिमित नमूनों से सीखने की कोशिश कर रहे हैं।
मैं नियमितीकरण की अवधारणा की उत्पत्ति की व्याख्या करके आपके विशिष्ट प्रश्नों का अप्रत्यक्ष रूप से उत्तर देने का प्रयास करूँगा। पूर्ण सिद्धांत बहुत अधिक विस्तृत है और इस व्याख्या को पूर्ण के रूप में व्याख्यायित नहीं किया जाना चाहिए, लेकिन इसका उद्देश्य केवल आपको अन्वेषण के लिए सही दिशा में इंगित करना है। चूँकि आपका प्राथमिक उद्देश्य नियमितीकरण की सहज जानकारी प्राप्त करना है , इसलिए मैंने "न्यूरल नेटवर्क्स एंड लर्निंग मशीन्स" के अध्याय 7 से साइमन हेकिन के 3 वें संस्करण (और ऐसा करते समय कई विवरणों को छोड़ दिया) से संक्षेप और भारी विवरण को सरल बनाया है।
स्वतंत्र चर और आश्रित चर साथ पर्यवेक्षित सीखने की समस्या को हल करने के लिए एक फ़ंक्शन को खोजने की कोशिश कर रहा है जो आउटपुट X के इनपुट x को "मैप" करने में सक्षम होगा।y i चएक्समैंyमैंच
इसे और आगे ले जाने के लिए, हैडमर्ड की "अच्छी तरह से प्रस्तुत" समस्या की शब्दावली को समझने की कोशिश करता है - एक समस्या अच्छी तरह से सामने आती है अगर यह निम्नलिखित तीन स्थितियों को संतुष्ट करती है:
- प्रत्येक इनपुट के लिए , और आउटपुट मौजूद है।y iएक्समैंyमैं
- आदानों की एक जोड़ी के लिए और , यदि और केवल यदि ।x 2 f ( x 1 ) = f ( x 2 ) x 1 = x 2एक्स1एक्स2च( x)1) = च( x)2)एक्स1= एक्स2
- मैपिंग निरंतर है (स्थिरता मानदंड)च
पर्यवेक्षित शिक्षण के लिए, इन शर्तों का उल्लंघन किया जा सकता है:
- एक दिए गए इनपुट के लिए एक अलग आउटपुट मौजूद नहीं हो सकता है।
- एक अद्वितीय इनपुट-आउटपुट मैपिंग का निर्माण करने के लिए प्रशिक्षण के नमूनों में पर्याप्त जानकारी नहीं हो सकती है (चूंकि अलग-अलग मैपिंग कार्यों में अलग-अलग प्रशिक्षण नमूने परिणामों पर सीखने के एल्गोरिथ्म को चलाते हैं)।
- डेटा में शोर पुनर्निर्माण प्रक्रिया में अनिश्चितता जोड़ता है जो इसकी स्थिरता को प्रभावित कर सकता है।
इस तरह की "बीमार" समस्याओं को हल करने के लिए, तिखोनोव ने एक गैर-नकारात्मक कार्यात्मक को शामिल करके समाधान को स्थिर करने के लिए एक नियमितकरण विधि का प्रस्ताव किया जो समाधान के बारे में पूर्व जानकारी एम्बेड करता है।
पूर्व सूचना के सबसे सामान्य रूप में यह धारणा शामिल है कि इनपुट-आउटपुट मैपिंग फ़ंक्शन सुचारू है - यानी समान इनपुट समान आउटपुट उत्पन्न करते हैं।
टिकनोव के नियमितीकरण सिद्धांत लागत फ़ंक्शन (हानि फ़ंक्शन को कम से कम करने के लिए) के नियमितीकरण शब्द को जोड़ता है जिसमें नियमितीकरण पैरामीटर और मैपिंग के ग्रहण किए गए रूप शामिल हैं । का मान 0 और बीच चुना जाता है । 0 मान का अर्थ है कि समाधान पूरी तरह से प्रशिक्षण के नमूनों से निर्धारित होता है; जबकि का मान तात्पर्य प्रशिक्षण के उदाहरण अविश्वसनीय हैं।च λ ∞ ∞λचλ∞∞
इसलिए नियमितीकरण पैरामीटर को चुना गया है और इसमें पूर्व सूचना की सही मात्रा को शामिल करके मॉडल पूर्वाग्रह और मॉडल संस्करण के बीच वांछित संतुलन प्राप्त करने के लिए अनुकूलित किया गया है।λ
ऐसे नियमित लागत कार्यों के कुछ उदाहरण हैं:
रेखीय प्रतिगमन:
जे( Θ ) = 1मΣममैं = १[ जθ( x)मैं) - वाईमैं]2+ λ2 मीΣnज = १θ2जे
रसद प्रतिगमन:
जे( Θ ) = 1मΣममैं = १[ - yमैंएल ओ जी( ज)θ( x)मैं) ) - ( 1 - yमैं) एल ओ जी( 1 - एचθ( x)मैं) ) ] + λ2 मीΣnज = १θ2जे
जहाँ, वे गुणांक हैं जिन्हें हमने लिए पहचाना है , और का अनुमान है ।θएक्सजθ( x )y
प्रत्येक उदाहरण में दूसरा सारांश शब्द नियमितीकरण शब्द है। चूंकि यह शब्द हमेशा एक गैर-नकारात्मक मूल्य होता है, यह आशावादी को लागत समारोह के लिए वैश्विक मिनिमा तक पहुंचने से रोकता है। यहाँ दिखाए गए शब्द का रूप नियमितीकरण है। नियमितीकरण फ़ंक्शन के रूप में कई भिन्नताएं हैं, आमतौर पर उपयोग किए जाने वाले रूप हैं: लासो, लोचदार नेट और रिज प्रतिगमन। ये अपने फायदे और नुकसान हैं जो यह तय करने में मदद करते हैं कि उनकी सबसे अच्छी प्रयोज्यता कहां है।एल2
नियमितीकरण लागू करने का शुद्ध प्रभाव मॉडल की जटिलता को कम करना है जो ओवर-फिटिंग को कम करता है। नियमितीकरण के लिए अन्य दृष्टिकोण (ऊपर दिए गए उदाहरणों में सूचीबद्ध नहीं हैं) में संरचनात्मक मॉडल जैसे कि प्रतिगमन / वर्गीकरण पेड़, बूस्टेड पेड़ आदि में संशोधन शामिल हैं, सरल पेड़ बनाने के लिए नोड्स को गिराकर। हाल ही में यह एक तंत्रिका नेटवर्क में न्यूरॉन्स के बीच कनेक्शन को गिराकर तथाकथित "गहन शिक्षा" में लागू किया गया है।
क्यू 3 का एक विशिष्ट उत्तर यह है कि रैंडम फ़ॉरेस्ट (या इसी तरह की वोटिंग स्कीम) जैसे कुछ सुनिश्चित तरीके अपनी अंतर्निहित विधि के कारण नियमितीकरण को प्राप्त करते हैं, अर्थात अन-रेगुलराइज़्ड ट्री के संग्रह से प्रतिक्रिया और मतदान करना। भले ही अलग-अलग पेड़ ओवरफिट होते हैं, लेकिन उनके परिणाम को "औसत" करने की प्रक्रिया ओवरफिटिंग से प्रशिक्षण सेट तक कलाकारों की टुकड़ी को रोकती है।
संपादित करें:
नियमितता की अवधारणा स्वयंसिद्ध समुच्चय सिद्धांत से संबंधित है, आप इस लेख को संकेतकर्ताओं के लिए संदर्भित कर सकते हैं - en.wikipedia.org/wiki/Axiom_of_ अनियमितता और यदि आप विवरणों में रुचि रखते हैं तो इस विषय को आगे बढ़ाएं ।
तंत्रिका जाल के लिए नियमितीकरण पर: बैक-प्रचार एल्गोरिथ्म को चलाते समय वजन को समायोजित करते समय, नियमितीकरण शब्द को लागत फ़ंक्शन में उसी तरह जोड़ा जाता है जैसे कि रैखिक और लॉजिस्टिक प्रतिगमन के लिए उदाहरण। इसलिए नियमितीकरण शब्द को जोड़ने से वैश्विक मिनीमाया तक पहुँचने से पीछे का प्रसार रुक जाता है।
तंत्रिका नेटवर्क के लिए बैच सामान्यीकरण का वर्णन करने वाला लेख है - बैच सामान्यीकरण: आंतरिक कोवरिएट शिफ्ट, आईऑफ़े, सेज़ेडी, 2015 को कम करके डीप नेटवर्क प्रशिक्षण में तेजी लाना।। यह ज्ञात है कि एक तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए बैकप्रोगैगेशन बेहतर होता है जब इनपुट चर सामान्यीकृत होते हैं। इस पत्र में, एक तंत्रिका नेटवर्क की कई परतों को प्रशिक्षित करते समय "लुप्त ग्रेडिएंट्स" की समस्या से बचने के लिए, लेखकों ने स्टोचस्टिक ग्रेडिएंट डिसेंट में उपयोग किए जाने वाले प्रत्येक मिनी-बैच के लिए सामान्यीकरण लागू किया है। उनके पेपर में वर्णित एल्गोरिथ्म प्रत्येक बैच में सक्रियता की प्रत्येक परत के लिए प्रत्येक बैच में गणना किए गए माध्य और विचरण को मानता है, क्योंकि मिनी-बैच SGD (एनएन वेट के अतिरिक्त) में अनुकूलित मापदंडों का एक और सेट है। पूरे प्रशिक्षण सेट का उपयोग करके फिर सक्रियणों को सामान्य किया जाता है। इस एल्गोरिथ्म के पूर्ण विवरण के लिए आप उनके पेपर का उल्लेख कर सकते हैं। इस पद्धति का उपयोग करके, वे नियमितीकरण के लिए ड्रॉपआउट का उपयोग करने से बचने में सक्षम थे, और इसलिए उनका दावा है कि यह एक और प्रकार का नियमितीकरण है।