नियमितता और नियमितीकरण क्या हैं?


12

मैं इन शब्दों को अधिक से अधिक सुन रहा हूं क्योंकि मैं मशीन लर्निंग का अध्ययन करता हूं। वास्तव में, कुछ लोगों ने समीकरणों की नियमितता पर काम करते हुए फील्ड्स मेडल जीता है। इसलिए, मुझे लगता है कि यह एक शब्द है जो सांख्यिकीय भौतिकी / गणित से लेकर मशीन सीखने तक का काम करता है। स्वाभाविक रूप से, मैंने जितने लोगों से पूछा, वे सहज रूप से इसे समझा नहीं सकते थे।

मुझे पता है कि ड्रॉपआउट जैसे तरीके नियमितीकरण में मदद करते हैं (=> वे कहते हैं कि यह ओवरफिटिंग को कम करता है, लेकिन मुझे वास्तव में ऐसा नहीं मिलता है: यदि यह केवल ओवरफिटिंग को कम करता है, तो इसे एंटी-ओवरफिटिंग तरीकों के लिए क्यों नहीं कहा जाना चाहिए>> कुछ और मुझे लगता है, इसलिए यह सवाल)।

मैं वास्तव में आभारी रहूंगा (मुझे लगता है कि भोले एमएल समुदाय भी होगा!) अगर आप समझा सकते हैं:

  1. आप नियमितता को कैसे परिभाषित करते हैं? नियमितता क्या है?

  2. क्या नियमितीकरण नियमितता सुनिश्चित करने का एक तरीका है? यानी नियमितता पर कब्जा?

  3. ड्रॉपआउट जैसे सामान्य तरीके, सामान्यीकरण के तरीके सभी नियमित करने का दावा क्यों करते हैं?

  4. मशीन लर्निंग में ये (नियमितता / नियमितीकरण) क्यों आते हैं?

आपकी सहायता के लिए धन्यवाद।

जवाबों:


8

नियमितीकरण लगभग सभी मशीन लर्निंग एल्गोरिदम में नियोजित होता है जहां हम प्रशिक्षण डेटा के परिमित नमूनों से सीखने की कोशिश कर रहे हैं।

मैं नियमितीकरण की अवधारणा की उत्पत्ति की व्याख्या करके आपके विशिष्ट प्रश्नों का अप्रत्यक्ष रूप से उत्तर देने का प्रयास करूँगा। पूर्ण सिद्धांत बहुत अधिक विस्तृत है और इस व्याख्या को पूर्ण के रूप में व्याख्यायित नहीं किया जाना चाहिए, लेकिन इसका उद्देश्य केवल आपको अन्वेषण के लिए सही दिशा में इंगित करना है। चूँकि आपका प्राथमिक उद्देश्य नियमितीकरण की सहज जानकारी प्राप्त करना है , इसलिए मैंने "न्यूरल नेटवर्क्स एंड लर्निंग मशीन्स" के अध्याय 7 से साइमन हेकिन के 3 वें संस्करण (और ऐसा करते समय कई विवरणों को छोड़ दिया) से संक्षेप और भारी विवरण को सरल बनाया है।

स्वतंत्र चर और आश्रित चर साथ पर्यवेक्षित सीखने की समस्या को हल करने के लिए एक फ़ंक्शन को खोजने की कोशिश कर रहा है जो आउटपुट X के इनपुट x को "मैप" करने में सक्षम होगा।y iएक्समैंyमैं

इसे और आगे ले जाने के लिए, हैडमर्ड की "अच्छी तरह से प्रस्तुत" समस्या की शब्दावली को समझने की कोशिश करता है - एक समस्या अच्छी तरह से सामने आती है अगर यह निम्नलिखित तीन स्थितियों को संतुष्ट करती है:

  1. प्रत्येक इनपुट के लिए , और आउटपुट मौजूद है।y iएक्समैंyमैं
  2. आदानों की एक जोड़ी के लिए और , यदि और केवल यदि ।x 2 f ( x 1 ) = f ( x 2 ) x 1 = x 2एक्स1एक्स2(एक्स1)=(एक्स2)एक्स1=एक्स2
  3. मैपिंग निरंतर है (स्थिरता मानदंड)

पर्यवेक्षित शिक्षण के लिए, इन शर्तों का उल्लंघन किया जा सकता है:

  1. एक दिए गए इनपुट के लिए एक अलग आउटपुट मौजूद नहीं हो सकता है।
  2. एक अद्वितीय इनपुट-आउटपुट मैपिंग का निर्माण करने के लिए प्रशिक्षण के नमूनों में पर्याप्त जानकारी नहीं हो सकती है (चूंकि अलग-अलग मैपिंग कार्यों में अलग-अलग प्रशिक्षण नमूने परिणामों पर सीखने के एल्गोरिथ्म को चलाते हैं)।
  3. डेटा में शोर पुनर्निर्माण प्रक्रिया में अनिश्चितता जोड़ता है जो इसकी स्थिरता को प्रभावित कर सकता है।

इस तरह की "बीमार" समस्याओं को हल करने के लिए, तिखोनोव ने एक गैर-नकारात्मक कार्यात्मक को शामिल करके समाधान को स्थिर करने के लिए एक नियमितकरण विधि का प्रस्ताव किया जो समाधान के बारे में पूर्व जानकारी एम्बेड करता है।

पूर्व सूचना के सबसे सामान्य रूप में यह धारणा शामिल है कि इनपुट-आउटपुट मैपिंग फ़ंक्शन सुचारू है - यानी समान इनपुट समान आउटपुट उत्पन्न करते हैं।

टिकनोव के नियमितीकरण सिद्धांत लागत फ़ंक्शन (हानि फ़ंक्शन को कम से कम करने के लिए) के नियमितीकरण शब्द को जोड़ता है जिसमें नियमितीकरण पैरामीटर और मैपिंग के ग्रहण किए गए रूप शामिल हैं । का मान 0 और बीच चुना जाता है । 0 मान का अर्थ है कि समाधान पूरी तरह से प्रशिक्षण के नमूनों से निर्धारित होता है; जबकि का मान तात्पर्य प्रशिक्षण के उदाहरण अविश्वसनीय हैं।λ λλ

इसलिए नियमितीकरण पैरामीटर को चुना गया है और इसमें पूर्व सूचना की सही मात्रा को शामिल करके मॉडल पूर्वाग्रह और मॉडल संस्करण के बीच वांछित संतुलन प्राप्त करने के लिए अनुकूलित किया गया है।λ

ऐसे नियमित लागत कार्यों के कुछ उदाहरण हैं:

रेखीय प्रतिगमन:

जे(θ)=1Σमैं=1[θ(एक्समैं)-yमैं]2+λ2Σजे=1nθजे2

रसद प्रतिगमन:

जे(θ)=1Σमैं=1[-yमैंएलजी(θ(एक्समैं))-(1-yमैं)एलजी(1-θ(एक्समैं))]+λ2Σजे=1nθजे2

जहाँ, वे गुणांक हैं जिन्हें हमने लिए पहचाना है , और का अनुमान है ।θएक्सθ(एक्स)y

प्रत्येक उदाहरण में दूसरा सारांश शब्द नियमितीकरण शब्द है। चूंकि यह शब्द हमेशा एक गैर-नकारात्मक मूल्य होता है, यह आशावादी को लागत समारोह के लिए वैश्विक मिनिमा तक पहुंचने से रोकता है। यहाँ दिखाए गए शब्द का रूप नियमितीकरण है। नियमितीकरण फ़ंक्शन के रूप में कई भिन्नताएं हैं, आमतौर पर उपयोग किए जाने वाले रूप हैं: लासो, लोचदार नेट और रिज प्रतिगमन। ये अपने फायदे और नुकसान हैं जो यह तय करने में मदद करते हैं कि उनकी सबसे अच्छी प्रयोज्यता कहां है।एल2

नियमितीकरण लागू करने का शुद्ध प्रभाव मॉडल की जटिलता को कम करना है जो ओवर-फिटिंग को कम करता है। नियमितीकरण के लिए अन्य दृष्टिकोण (ऊपर दिए गए उदाहरणों में सूचीबद्ध नहीं हैं) में संरचनात्मक मॉडल जैसे कि प्रतिगमन / वर्गीकरण पेड़, बूस्टेड पेड़ आदि में संशोधन शामिल हैं, सरल पेड़ बनाने के लिए नोड्स को गिराकर। हाल ही में यह एक तंत्रिका नेटवर्क में न्यूरॉन्स के बीच कनेक्शन को गिराकर तथाकथित "गहन शिक्षा" में लागू किया गया है।

क्यू 3 का एक विशिष्ट उत्तर यह है कि रैंडम फ़ॉरेस्ट (या इसी तरह की वोटिंग स्कीम) जैसे कुछ सुनिश्चित तरीके अपनी अंतर्निहित विधि के कारण नियमितीकरण को प्राप्त करते हैं, अर्थात अन-रेगुलराइज़्ड ट्री के संग्रह से प्रतिक्रिया और मतदान करना। भले ही अलग-अलग पेड़ ओवरफिट होते हैं, लेकिन उनके परिणाम को "औसत" करने की प्रक्रिया ओवरफिटिंग से प्रशिक्षण सेट तक कलाकारों की टुकड़ी को रोकती है।

संपादित करें:

नियमितता की अवधारणा स्वयंसिद्ध समुच्चय सिद्धांत से संबंधित है, आप इस लेख को संकेतकर्ताओं के लिए संदर्भित कर सकते हैं - en.wikipedia.org/wiki/Axiom_of_ अनियमितता और यदि आप विवरणों में रुचि रखते हैं तो इस विषय को आगे बढ़ाएं

तंत्रिका जाल के लिए नियमितीकरण पर: बैक-प्रचार एल्गोरिथ्म को चलाते समय वजन को समायोजित करते समय, नियमितीकरण शब्द को लागत फ़ंक्शन में उसी तरह जोड़ा जाता है जैसे कि रैखिक और लॉजिस्टिक प्रतिगमन के लिए उदाहरण। इसलिए नियमितीकरण शब्द को जोड़ने से वैश्विक मिनीमाया तक पहुँचने से पीछे का प्रसार रुक जाता है।

तंत्रिका नेटवर्क के लिए बैच सामान्यीकरण का वर्णन करने वाला लेख है - बैच सामान्यीकरण: आंतरिक कोवरिएट शिफ्ट, आईऑफ़े, सेज़ेडी, 2015 को कम करके डीप नेटवर्क प्रशिक्षण में तेजी लाना।। यह ज्ञात है कि एक तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए बैकप्रोगैगेशन बेहतर होता है जब इनपुट चर सामान्यीकृत होते हैं। इस पत्र में, एक तंत्रिका नेटवर्क की कई परतों को प्रशिक्षित करते समय "लुप्त ग्रेडिएंट्स" की समस्या से बचने के लिए, लेखकों ने स्टोचस्टिक ग्रेडिएंट डिसेंट में उपयोग किए जाने वाले प्रत्येक मिनी-बैच के लिए सामान्यीकरण लागू किया है। उनके पेपर में वर्णित एल्गोरिथ्म प्रत्येक बैच में सक्रियता की प्रत्येक परत के लिए प्रत्येक बैच में गणना किए गए माध्य और विचरण को मानता है, क्योंकि मिनी-बैच SGD (एनएन वेट के अतिरिक्त) में अनुकूलित मापदंडों का एक और सेट है। पूरे प्रशिक्षण सेट का उपयोग करके फिर सक्रियणों को सामान्य किया जाता है। इस एल्गोरिथ्म के पूर्ण विवरण के लिए आप उनके पेपर का उल्लेख कर सकते हैं। इस पद्धति का उपयोग करके, वे नियमितीकरण के लिए ड्रॉपआउट का उपयोग करने से बचने में सक्षम थे, और इसलिए उनका दावा है कि यह एक और प्रकार का नियमितीकरण है।


महान जवाब के लिए धन्यवाद। क्या आप गणितीय रूप से थोड़ा समझा सकते हैं कि सामान्यीकरण जैसे तरीके नियमितीकरण कैसे प्राप्त करते हैं? गुडफेलो द्वारा एक वार्ता में, उन्होंने कहा कि जो कुछ भी अलग है वह तंत्रिका जाल के लिए एक नियमित रूप से कार्य कर सकता है। इसके अलावा, क्या आप जानते हैं कि नियमितता क्या है? क्या उनका मतलब सिर्फ पैटर्न है या इसके पीछे कुछ गणित है? एक बार फिर धन्यवाद।
राफेल

उत्तर के लिए धन्यवाद। मुझे बात याद नहीं है। तंत्रिका जाल में हम परतों को जोड़ते हैं जैसे कि बैच सामान्यीकरण। मैं जानना चाहता था कि वे नियमितीकरण में कितना योगदान देते हैं?
राफेल

आपकी टिप्पणी का उत्तर देने के साथ-साथ पहले की टिप्पणियों में दिए गए उत्तरों को जोड़ने का संपादन किया।
संदीप एस। संधू

3

प्रश्न 1

मैं किसी भी विहित परिभाषा से अवगत नहीं हूं, और आपके सवालों से पता चलता है कि इस शब्द का उपयोग विभिन्न अर्थों के साथ किया जाता है। आइए सरल उदाहरणों से शुरू करें (जो प्रश्न 2 का उत्तर देगा)।

प्रश्न 2

रिज प्रतिगमन एक अच्छा प्रारंभिक बिंदु हो सकता है। यह एक नियमितीकरण विधि है जो एक विलक्षण मैट्रिक्स द्वारा उठाए गए मुद्दे को दरकिनार करती है ।

हालांकि, क्रमिक बूस्टिंग विधियों (प्रति उदाहरण) में परिभाषित "नियमितीकरण पैरामीटर" यहां मॉडल के लिए एक कम जटिलता सुनिश्चित करने के लिए है ।

प्रश्न 3

नियमितीकरण के रूप में सामान्यीकरण का एक और अर्थ है (और यह शब्दावली काफी भ्रामक है)। यह एक जटिल समस्या को "साधारण वंश के दृष्टिकोण से" कुछ सरल में बदल देता है। हालांकि यह एक तंत्रिका नेटवर्क को जांचने के लिए आवश्यक नहीं है, यह वास्तव में अंशांकन के दौरान मदद करता है। (हालांकि, ध्यान दें कि अगर हम मनमाने कार्यों की वैश्विक विलुप्तता पा सकते हैं, तो सामान्यीकरण की आवश्यकता नहीं होगी)

प्रश्न 4

नियमितीकरण (एक मॉडल की जटिलता को कम करने के तरीके के रूप में) का उपयोग ओवरफिट को कम करने के लिए किया जाता है। एक मॉडल जितना कम जटिल होता है, उतनी ही अधिक संभावना होती है।

अलग

एस। वतनबे अपने शोध में इस शब्दावली पर कठोर प्रयोग करते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.