37

एक मुद्दा जिसे मैंने सामान्य रूप से न्यूरल नेटवर्क्स के संदर्भ में अक्सर देखा है, और विशेष रूप से डीप न्यूरल नेटवर्क्स, यह है कि वे "डेटा भूखे" हैं - यही है कि वे तब तक अच्छा प्रदर्शन नहीं करते हैं जब तक कि हमारे पास एक बड़ा डेटा सेट न हो। जिसके साथ नेटवर्क को प्रशिक्षित करना है।

मेरी समझ यह है कि यह इस तथ्य के कारण है कि एननेट्स, विशेष रूप से डीप एननेट्स में बड़ी संख्या में स्वतंत्रता है। इसलिए एक मॉडल के रूप में, एक एननेट के पास बहुत बड़ी संख्या में पैरामीटर हैं, और यदि मॉडल के मापदंडों की संख्या प्रशिक्षण डेटा बिंदुओं की संख्या के सापेक्ष बड़ी है, तो फिट होने की प्रवृत्ति बढ़ जाती है।

लेकिन इस मुद्दे को नियमितीकरण द्वारा हल क्यों नहीं किया गया है? जहां तक मुझे पता है कि NNets L1 और L2 नियमितीकरण का उपयोग कर सकते हैं और ड्रॉपआउट जैसे उनके अपने नियमितीकरण के तरीके भी हैं जो नेटवर्क में मापदंडों की संख्या को कम कर सकते हैं।

क्या हम अपने नियमितीकरण के तरीकों को चुन सकते हैं जैसे कि वे पारसमणि लागू करते हैं और नेटवर्क के आकार को सीमित करते हैं?

मेरी सोच को स्पष्ट करने के लिए: मान लीजिए कि हम अपने डेटा को मॉडल करने की कोशिश के लिए एक बड़े डीप एननेट का उपयोग कर रहे हैं, लेकिन डेटा सेट छोटा है और वास्तव में एक रैखिक मॉडल द्वारा मॉडल किया जा सकता है। फिर नेटवर्क वेट इस तरह से क्यों नहीं परिवर्तित होता है कि एक न्यूरॉन रैखिक प्रतिगमन का अनुकरण करता है और अन्य सभी शून्य में परिवर्तित होते हैं? नियमितीकरण इसके साथ मदद क्यों नहीं करता है?

neural-networks deep-learning regularization

— मोनिका को बहाल करो
स्रोत

7

"तो फिर नेटवर्क वेट इस तरह से क्यों नहीं परिवर्तित होता है कि एक न्यूरॉन रैखिक प्रतिगमन का अनुकरण करता है और बाकी सभी शून्य में परिवर्तित हो जाते हैं? क्यों नियमितीकरण इससे मदद नहीं करता है?" मुझे वास्तव में लगता है कि यह वास्तव में एक दिलचस्प पेपर होगा: उस नेटवर्क और समस्या का निर्माण करें और फिर आकलन करें कि क्या होता है।

— मोनिका

ठीक है, आपके पास नियमित रूप से नेटवर्क की गहरी परतों में बाद में भी कम ग्रेडिएंट्स की समस्या है, जब आप नियमित करते हैं। यही कारण है कि लोग आपके द्वारा वर्णित विवरण को प्रभावी ढंग से करने के लिए बैच सामान्यीकरण का उपयोग करते हैं। अन्य दृष्टिकोण पहले से ही इसके लिए जिम्मेदार हैं (जैसे एलएसटीएम) और ऐसी चीजें हैं जो ड्रॉपआउट जैसे भुखमरी से निपटने में मदद कर सकती हैं।

— बेंजामिन ग्रुएनबाम

Reddit चर्चा: reddit.com/r/MachineLearning/comments/8izegs/…

— बेंजामिन क्राउज़ियर

जैसा कि @cliffab नीचे जवाब देता है, नियमितीकरण वह नहीं है जो आपको प्रदर्शन में सुधार करने की आवश्यकता है। इसे सीधे शब्दों में कहें, तो नियमित रूप से एक एकल बिल्ली की छवि के साथ घुमाए गए बिल्ली के चित्रों का एक गुच्छा समान नहीं है।

— seanv507

1

मैं बिल्कुल भी हैरान नहीं हूं। जिस तरह की समय श्रृंखला के साथ मैं काम करता हूं, उससे निपटने के लिए मैं अभी तक एक ऐसी विधि ढूंढ रहा हूं, जो पुरानी खोपड़ी के समय श्रृंखला विधियों को हरा देती है, लेकिन मैं कोशिश करता रहता हूं :)

— अक्षकाल

43

यह समझाने का सरल तरीका यह है कि नियमितीकरण शोर में फिट नहीं होने में मदद करता है, यह संकेत के आकार को निर्धारित करने के मामले में बहुत कुछ नहीं करता है। यदि आप एक विशाल गौरवशाली समारोह सन्निकट के रूप में गहन शिक्षा के बारे में सोचते हैं, तो आपको पता चलता है कि जटिल संकेत के आकार को परिभाषित करने के लिए बहुत अधिक डेटा की आवश्यकता होती है।

यदि कोई शोर नहीं होता तो एनएन की बढ़ती जटिलता एक बेहतर सन्निकटन पैदा करती। एनएन के आकार के लिए कोई जुर्माना नहीं होगा, बड़ा हर मामले में बेहतर होता। एक टेलर सन्निकटन पर विचार करें, गैर-बहुपद समारोह (संख्यात्मक सटीक मुद्दों की अनदेखी) के लिए अधिक शर्तें हमेशा बेहतर होती हैं।

यह एक शोर की उपस्थिति में टूट जाता है, क्योंकि आप शोर के लिए फिटिंग शुरू करते हैं। इसलिए, यहां मदद करने के लिए नियमितीकरण आता है: यह शोर को कम करने के लिए फिटिंग को कम कर सकता है , इस प्रकार हमें गैर-समस् याओं के लिए बड़े एनएन बनाने की अनुमति देता है।

निम्नलिखित चर्चा मेरे उत्तर के लिए आवश्यक नहीं है, लेकिन मैंने कुछ टिप्पणियों का जवाब देने के लिए भाग लिया और उपरोक्त उत्तर के मुख्य निकाय को प्रेरित किया। मूल रूप से, मेरे जवाब के बाकी फ्रेंच आग की तरह है जो बर्गर खाने के साथ आते हैं, आप इसे छोड़ सकते हैं।

(इर) प्रासंगिक मामला: बहुपद प्रतिगमन

आइए एक बहुपद प्रतिगमन के एक खिलौना उदाहरण को देखें। यह कई कार्यों के लिए एक बहुत अच्छा सन्निकटन है। हम क्षेत्र में फ़ंक्शन को । जैसा कि आप नीचे टेलर श्रृंखला से देख सकते हैं, 7 वें क्रम का विस्तार पहले से ही एक बहुत अच्छा फिट है, इसलिए हम उम्मीद कर सकते हैं कि 7+ ऑर्डर का बहुपद भी एक बहुत अच्छा फिट होना चाहिए: $\sin(x)$ $x\in(-3,3)$

इसके बाद, हम 7 अवलोकनों के साथ सेट किए गए छोटे बहुत शोर डेटा के उत्तरोत्तर उच्च क्रम वाले बहुपदों को फिट करने जा रहे हैं:

हम देख सकते हैं कि हमें कई लोगों द्वारा बहुपद के बारे में बताया गया है, जिसमें वे जानते हैं: वे अस्थिर हैं, और बहुपद के क्रम में वृद्धि के साथ बेतहाशा दोलन करना शुरू करते हैं।

हालांकि, समस्या खुद बहुपद नहीं है। समस्या शोर है। जब हम बहुपदों को शोर के डेटा के लिए फिट करते हैं, तो फिट का हिस्सा शोर को होता है, सिग्नल को नहीं। यहां एक ही सटीक बहुपद समान डेटा सेट के लिए फिट हैं, लेकिन शोर के साथ पूरी तरह से हटा दिया गया है। फिट बैठता है महान हैं!

क्रम 6 के लिए एक दृष्टि से परिपूर्ण फिट पर ध्यान दें। यह आश्चर्यजनक नहीं होना चाहिए क्योंकि 7 अवलोकनों की आवश्यकता है कि हम सभी को विशिष्ट रूप से क्रम 6 बहुपद की पहचान करने की आवश्यकता है, और हमने टेलर सन्निकटन साजिश से ऊपर देखा कि 6 क्रम पहले से ही एक बहुत अच्छा सन्निकटन है हमारे डेटा रेंज में। $\sin(x)$

यह भी ध्यान दें कि उच्च क्रम बहुपद के साथ-साथ क्रम 6 भी फिट नहीं है, क्योंकि उन्हें परिभाषित करने के लिए पर्याप्त टिप्पणियां नहीं हैं। तो, आइए देखें कि 100 टिप्पणियों के साथ क्या होता है। नीचे दिए गए एक चार्ट पर आप देखें कि कैसे एक बड़े डेटा सेट ने हमें उच्च क्रम के बहुपदों को फिट करने की अनुमति दी, इस प्रकार एक बेहतर फिट पूरा हुआ!

महान, लेकिन समस्या यह है कि हम आम तौर पर शोर डेटा से निपटते हैं। देखो कि क्या होता है अगर आप बहुत शोर डेटा के 100 टिप्पणियों के समान फिट होते हैं, तो नीचे दिए गए चार्ट को देखें। हम एक वर्ग में वापस आ गए हैं: उच्च क्रम के बहुपद में भयानक दोलन फिट बैठता है। इसलिए, बढ़ते डेटा सेट ने डेटा की बेहतर व्याख्या करने के लिए मॉडल की जटिलता को बढ़ाने में बहुत मदद नहीं की। यह फिर से है, क्योंकि जटिल मॉडल न केवल सिग्नल के आकार के लिए बेहतर है, बल्कि शोर के आकार के लिए भी बेहतर है।

अंत में, आइए इस समस्या पर कुछ लंगड़ा नियमितीकरण का प्रयास करें। नीचे दिया गया चार्ट 9 बहुपद प्रतिगमन के आदेश के लिए लागू नियमितीकरण (विभिन्न दंड के साथ) दिखाता है। ऑर्डर (पावर) 9 बहुपद फिट करने के लिए इसकी तुलना करें: नियमितीकरण के एक उचित स्तर पर शोर डेटा के लिए उच्च आदेश बहुपद फिट करना संभव है।

बस के मामले में यह स्पष्ट नहीं था: मैं इस तरह से बहुपद प्रतिगमन का उपयोग करने का सुझाव नहीं दे रहा हूं। बहुपद स्थानीय फिट के लिए अच्छे हैं, इसलिए एक टुकड़ा-वार बहुपद एक अच्छा विकल्प हो सकता है। उनके साथ पूरे डोमेन को फिट करने के लिए अक्सर एक बुरा विचार है, क्योंकि वे शोर के प्रति संवेदनशील हैं, वास्तव में, जैसा कि ऊपर के भूखंडों से स्पष्ट होना चाहिए। चाहे शोर संख्यात्मक हो या किसी अन्य स्रोत से, इस संदर्भ में उतना महत्वपूर्ण नहीं है। शोर शोर है, और बहुपत्नी भावुकता से इस पर प्रतिक्रिया करेंगे।

— Aksakal
स्रोत

8

और जब आपका डेटासेट छोटा होता है, तो शोर और गैर-शोर के बीच अंतर करना बहुत मुश्किल होता है।

— एलेक्स आर

3

वास्तव में नियमितीकरण ओवरफिटिंग के बिना एक बड़ा एनएन होने की अनुमति देता है

— अक्सकल

6

@ एलेक्स - यह एक सरल मॉडल के लिए डिफ़ॉल्ट क्यों होगा? वहाँ अस्पष्टीकृत परिवर्तनशीलता है जो अभी भी जटिलता को जोड़कर फिट हो सकती है! और ... लक्ष्य जितना संभव हो उतना अस्पष्ट परिवर्तन को कम करना है ... यदि यह नहीं था, तो एनएन सरलतम संभव मॉडल, अर्थात् "0" के लिए डिफ़ॉल्ट होगा। लेकिन, जैसा कि अक्षल ने लिखा है, जैसा कि एनएन डेटा में अस्पष्टीकृत परिवर्तनशीलता को कम करता है, यह भी अस्पष्टीकृत परिवर्तनशीलता को फिट कर रहा है , अर्थात, ओवरफिटिंग - इसलिए नियमितीकरण की आवश्यकता है।

— शाम

2

एक और बात: मान लें कि आपके द्वारा मॉडलिंग की जाने वाली अंतर्निहित प्रक्रिया शोर है, जैसे कि मानव मतदान व्यवहार या कुछ स्वास्थ्य परिणाम जो मूल रूप से भविष्यवाणी करना कठिन है। यह भी कहें कि आपका डेटा सभी प्रकार की माप त्रुटि से भरा हुआ है और शायद कुछ चयन पूर्वाग्रह भी। पर्यावरण को इंगित करने के लिए इस तरह के एक उच्च शोर में, मैं न केवल नियमितीकरण के साथ एक सरल मॉडल पसंद करूंगा। मैं कम डेटा भी पसंद कर सकता हूं, ताकि मैं नियमित रूप से किए गए सभी नियमित प्रयासों के बावजूद शोर का एक गुच्छा बहुत सटीक रूप से माप न सकूं।

— ब्राश इक्विलिब्रियम

2

@BrashEquilibrium - एक उत्कृष्ट बिंदु। हम 150 सुविधाओं के आसपास के साथ ग्रेडिंग बूस्टिंग मशीनों का उपयोग करते हुए कुछ बड़े पैमाने पर पूर्वानुमान कर रहे हैं, जिनमें से कई में उच्च शोर का स्तर है (लेकिन अभी भी पूर्वानुमान की गुणवत्ता में सुधार होता है), और पता चला है कि जीबीएम को 20% डेटा देने के लिए 50% या अधिक देने से बेहतर पूर्वानुमान के परिणामों पर, यहां तक कि अन्य सभी नियमितीकरण तंत्रों के साथ भी।

— jbowman

7

इस समय, इसकी नियमित समझ कब और क्यों कुछ नियमितीकरण के तरीके सफल और असफल हो जाते हैं। वास्तव में, इसकी समझ में यह बिल्कुल नहीं आया कि गहरी शिक्षा पहली जगह में क्यों काम करती है।

इस तथ्य को ध्यान में रखते हुए कि एक पर्याप्त गहरा तंत्रिका जाल पूरी तरह से व्यवहार किए गए प्रशिक्षण डेटा को पूरी तरह से याद कर सकता है, किसी विशेष गहरे जाल के लिए सही होने की तुलना में काफी अधिक गलत समाधान हैं। नियमित रूप से, मोटे तौर पर बोलना, इन "गलत" समाधानों के लिए मॉडल की अभिव्यक्ति को सीमित करने का प्रयास है - जहां "गलत" को परिभाषित किया जाता है, जो हमारे द्वारा किसी विशेष डोमेन के लिए महत्वपूर्ण हैं । लेकिन अक्सर ऐसा अनुमान लगाने में मुश्किल होता है कि आप इसके साथ "सही" अभिव्यक्तता नहीं खोते हैं। इसका एक बड़ा उदाहरण एल 2 दंड है।

बहुत कम विधियां जिन्हें नियमितीकरण का एक रूप माना जाएगा वे आम तौर पर एमएल के सभी आवेदन क्षेत्रों पर लागू होती हैं। विज़न, एनएलपी और संरचित भविष्यवाणी की समस्याएं, सभी के पास नियमितीकरण तकनीकों की अपनी कुकबुक है जो उन विशेष डोमेन के लिए प्रयोगात्मक रूप से प्रभावी होने के लिए प्रदर्शित की गई हैं। लेकिन उन डोमेन के भीतर भी, ये तकनीक केवल कुछ परिस्थितियों में ही प्रभावी हैं। उदाहरण के लिए, गहरे अवशिष्ट नेटवर्क पर बैच सामान्यीकरण ड्रॉपआउट को निरर्थक बनाने के लिए प्रकट होता है, इस तथ्य के बावजूद कि दोनों को स्वतंत्र रूप से अनुकूलन में सुधार दिखाया गया है।

एक अलग नोट पर, मुझे लगता है कि नियमितीकरण शब्द इतना व्यापक है कि इसके बारे में कुछ भी समझना मुश्किल हो जाता है। इस तथ्य पर विचार करते हुए कि दृढ़ संकल्प पिक्सेल के संबंध में तेजी से पैरामीटर स्थान को सीमित करते हैं, आप वैनिअल न्यूरल नेट पर नियमितीकरण फॉर्म के रूप में दृढ़ तंत्रिका नेटवर्क पर विचार कर सकते हैं।

— ऑस्टिन शिन
स्रोत

मुझे यकीन नहीं है कि मैं आपके पहले पैराग्राफ से सहमत हूं।

— एंडर बिगुरी

3

500 पात्रों में इसके बारे में बात करना मुश्किल है, लेकिन दुनिया के शीर्ष शोधकर्ताओं का दावा है कि एसडब्ल्यूडी की सफलता अच्छी तरह से समझ में नहीं आती है। उदाहरण के लिए, इल्या एस को OpenAI से लें: youtube.com/watch?v=RvEwFvl-TrY&feature=youtu.be&t=339

— ऑस्टिन शिन

पूरी तरह से सहमत - शायद यही कारण है कि वास्तविक जाल के बजाय बहुपद सन्निकटन के साथ तर्क करना आसान है ...

— पी-जीएन

3

प्रमेयों का एक वर्ग जो दिखाता है कि यह समस्या मौलिक क्यों है, नो फ्री लंच प्रमेय हैं । सीमित नमूनों वाली हर समस्या के लिए जहां एक निश्चित नियमितीकरण मदद करता है, वहीं दूसरी समस्या यह है कि वही नियमितीकरण चीजों को बदतर बना देगा। जैसा कि ऑस्टिन बताते हैं, हम आमतौर पर पाते हैं कि एल 1 / एल 2 नियमितीकरण कई वास्तविक दुनिया की समस्याओं के लिए सहायक है, लेकिन यह केवल एक अवलोकन है और एनएफएल प्रमेयों के कारण, कोई सामान्य गारंटी नहीं हो सकती है।

— ग्रेग वेर स्टिग
स्रोत

3

मैं कहूंगा कि उच्च स्तर पर, DNNs (गहरे तंत्रिका नेटवर्क) का प्रेरक पूर्वाग्रह शक्तिशाली है, लेकिन थोड़ा बहुत ढीला या पर्याप्त नहीं है। इसके द्वारा मेरा मतलब है कि DNNs सतह के ढेर सारे आंकड़ों पर कब्जा कर लेता है जो चल रहा है, लेकिन गहरे कारण / संरचना उच्च स्तरीय संरचना तक पहुंचने में विफल रहता है। (आप संकल्पों को एक गरीब व्यक्ति के प्रेरक पूर्वाग्रह विनिर्देश के रूप में देख सकते हैं)।

इसके अलावा, मशीन लर्निंग समुदाय में यह माना जाता है कि सामान्यीकरण करने का सबसे अच्छा तरीका है (छोटे डेटा के साथ अच्छे अनुमान / भविष्यवाणियां करना), सबसे छोटा प्रोग्राम ढूंढना है जिसने डेटा को जन्म दिया। लेकिन कार्यक्रम प्रेरण / संश्लेषण कठिन है और हमारे पास इसे कुशलता से करने का कोई अच्छा तरीका नहीं है। इसलिए इसके बजाय हम एक करीबी सन्निकटन पर भरोसा करते हैं जो सर्किट खोज है, और हम जानते हैं कि बैकप्रॉपैजेशन के साथ ऐसा कैसे होता है। यहाँ , इल्या सुतस्क्वर ने उस विचार का अवलोकन किया।

वास्तविक कार्यक्रमों बनाम गहन शिक्षण मॉडल के रूप में प्रतिनिधित्व किए गए मॉडल के सामान्यीकरण की शक्ति में अंतर को स्पष्ट करने के लिए, मैं इस पेपर में एक दिखाऊंगा: शारीरिक दृश्य समझ के इंजन के रूप में सिमुलेशन ।

(ए) आईपीई [सहज ज्ञान युक्त भौतिकी इंजन] मॉडल इनपुट लेता है (उदाहरण के लिए, धारणा, भाषा, स्मृति, कल्पना, आदि) जो दृश्यों पर वितरण को तत्काल करता है (1), फिर वितरण पर भौतिकी के प्रभावों का अनुकरण करता है (2), और फिर अन्य सेंसरिमोटर और संज्ञानात्मक संकायों के आउटपुट के लिए परिणामों को एकत्र करता है (3)

(बी) ऍक्स्प। 1 (क्या यह गिर जाएगा?) टॉवर उत्तेजनाओं। लाल सीमा के साथ टॉवर वास्तव में नाजुक रूप से संतुलित है, और अन्य दो समान ऊंचाई हैं, लेकिन नीली सीमा वाले मॉडल और लोगों द्वारा गिरने की बहुत कम संभावना है।

(सी) प्रोपेबिलिस्टिक आईपीई मॉडल (एक्स अक्ष) बनाम मानव निर्णय औसत (वाई अक्ष) एक्सप में। 1. 1. और 3 के अन्य मूल्यों के लिए सहसंबंधों के लिए अंजीर। S3 देखें। प्रत्येक बिंदु एक टॉवर (SEM के साथ) का प्रतिनिधित्व करता है, और तीन रंगीन सर्कल बी में तीन टॉवरों के अनुरूप हैं।

(डी) ग्राउंड ट्रुथ (नॉनप्रैबिलिस्टिक) बनाम मानव निर्णय (एक्सप। 1)। क्योंकि यह अनिश्चितता का प्रतिनिधित्व नहीं करता है, यह हमारी उत्तेजनाओं के लिए कई लोगों के निर्णयों पर कब्जा नहीं कर सकता है, जैसे कि बी में लाल-बॉर्डर टॉवर (ध्यान दें कि ये मामले प्राकृतिक दृश्यों में दुर्लभ हो सकते हैं, जहां कॉन्फ़िगरेशन अधिक स्पष्ट रूप से स्थिर होते हैं या अस्थिर और आईपीई से यह उम्मीद की जाएगी कि वह जमीनी सच्चाई के साथ बेहतर तरीके से संबंध स्थापित करे।

यहाँ मेरा कहना यह है कि सी में फिट वास्तव में अच्छा है, क्योंकि मॉडल सही पूर्वाग्रहों को कैप्चर करता है कि मनुष्य शारीरिक निर्णय कैसे लेते हैं। क्योंकि यह मॉडल वास्तविक भौतिक विज्ञान (याद रखें कि यह इस बड़े हिस्से में है है एक वास्तविक भौतिकी इंजन) और अनिश्चितता से निपटने कर सकते हैं।

अब स्पष्ट प्रश्न है: क्या आप गहरी शिक्षा के साथ ऐसा कर सकते हैं? इस काम में लेरर एट अल ने यही किया है: उदाहरण के लिए ब्लॉक टावर्स के भौतिक अंतर्ज्ञान सीखना

उनका मॉडल:

उनका मॉडल वास्तव में हाथ में काम पर बहुत अच्छा है (गिरने वाले ब्लॉकों की संख्या की भविष्यवाणी करना, और यहां तक कि उनकी गिरने की दिशा भी)

लेकिन इसमें दो बड़ी कमियां हैं:

इसे ठीक से प्रशिक्षित करने के लिए भारी मात्रा में डेटा की आवश्यकता होती है
केवल उथले तरीकों से सामान्यीकरण में: आप अधिक यथार्थवादी दिखने वाली छवियों को स्थानांतरित कर सकते हैं, 1 या 2 ब्लॉक जोड़ या हटा सकते हैं। लेकिन इससे परे कुछ भी, और प्रदर्शन भयावह रूप से नीचे चला जाता है: 3 या 4 ब्लॉक जोड़ें, भविष्यवाणी कार्य को बदलें ...

इन दो दृष्टिकोणों के बारे में टेनेनबम की प्रयोगशाला द्वारा एक तुलनात्मक अध्ययन किया गया था: मानव भौतिक दृश्य को समझने के रूप में अनुमानित संभाव्यता सिमुलेशन और गहन तंत्रिका नेटवर्क का तुलनात्मक मूल्यांकन ।

चर्चा अनुभाग का हवाला देते हुए:

कम प्रशिक्षण डेटा के कारण CNN का प्रदर्शन कम हो जाता है। हालांकि एलेक्सनेट (ढोंग नहीं) 200,000 प्रशिक्षण छवियों के साथ बेहतर प्रदर्शन करता है, यह डेटा की कमी से भी अधिक पीड़ित है, जबकि दिखावा किया गया है कि एलेक्सनेट थोड़ी मात्रा में प्रशिक्षण छवियों से बेहतर सीखने में सक्षम है। हमारे कार्य के लिए, दोनों मॉडलों को अपने प्रदर्शन के लिए लगभग 1,000 छवियों की आवश्यकता होती है जो आईपीई मॉडल और मनुष्यों के बीच तुलना करने के लिए होती हैं।

सीएनएन में छोटे दृश्य बदलावों में भी सामान्यीकरण की क्षमता सीमित होती है, जैसे कि ब्लॉक की संख्या बदलना। इसके विपरीत, IPE मॉडल स्वाभाविक रूप से उन तरीकों को सामान्य करते हैं और उन पर कब्जा कर लेते हैं जो मानव निर्णय सटीकता एक स्टैक में ब्लॉकों की संख्या के साथ घट जाती है।

एक साथ लिया गया, ये परिणाम मानव अनुभूति के बारे में कुछ मौलिक संकेत देते हैं कि तंत्रिका नेटवर्क (या कम से कम सीएनएन) वर्तमान में कैप्चर नहीं कर रहे हैं: दुनिया के कारण प्रक्रियाओं के मानसिक मॉडल का अस्तित्व। गुणात्मक मानसिक मॉडल का अनुमान लगाया जा सकता है कि गुणात्मक रूप से उपन्यास स्थितियों में क्या होगा, और उन्हें व्यापक रूप से सामान्य करने के लिए विशाल और विविध प्रशिक्षण डेटा की आवश्यकता नहीं है, लेकिन वे स्वाभाविक रूप से कुछ प्रकार की त्रुटियों के अधीन हैं (उदाहरण के लिए, राज्य के कारण अनिश्चितता का प्रसार और गतिशीलता शोर) बस अनुकरण द्वारा संचालित करने के गुण में।

उस बिंदु पर वापस जो मैं बनाना चाहता हूं: जबकि तंत्रिका नेटवर्क शक्तिशाली मॉडल हैं, वे कारण, संरचना और जटिल संरचना का प्रतिनिधित्व करने की क्षमता की कमी महसूस करते हैं। और वे इसके लिए बहुत सारे प्रशिक्षण डेटा की आवश्यकता होती है।

और आपके प्रश्न पर वापस: मैं यह कहना चाहूंगा कि व्यापक प्रेरक पूर्वाग्रह और तथ्य यह है कि तंत्रिका नेटवर्क कार्य-कारण / संरचना का मॉडल नहीं बनाते हैं, इसलिए उन्हें इतने प्रशिक्षण डेटा की आवश्यकता होती है। जिस तरह से वे सामान्यीकरण करते हैं, उसके कारण नियमितीकरण एक महान तय नहीं है। बेहतर पूर्वाग्रह उनके पूर्वाग्रह को बदलने के लिए होगा, जैसा कि वर्तमान में मॉडलिंग सम्पूर्ण / भाग ज्यामिति, या मॉडलिंग संबंधों के लिए इंटरैक्शन नेटवर्क के लिए कैप्सूल के साथ Hinton द्वारा कोशिश की जा रही है ।

— बेंजामिन क्राउज़ियर
स्रोत

2

सबसे पहले दोनों में बहुत से नियमितीकरण के तरीके हैं जो गहन शिक्षा के लिए उपयोग और सक्रिय अनुसंधान दोनों में हैं। तो आपका आधार पूरी तरह से निश्चित नहीं है।

उपयोग के तरीकों के रूप में, वजन घटाना धीरे-धीरे वंश के माध्यम से भार पर L2 दंड का प्रत्यक्ष कार्यान्वयन है। अपने भार के वर्ग के मान को ढाल लें और प्रत्येक पुनरावृत्ति पर इस दिशा में एक छोटा कदम जोड़ें। ड्रॉपआउट को नियमितीकरण का एक रूप भी माना जाता है, जो एक तरह की औसत संरचना को लागू करता है। यह साझा मापदंडों के साथ नेटवर्क के एक समूह पर L2 के दंड जैसा कुछ प्रतीत होता है।

आप संभवतः छोटे नमूनों को संबोधित करने के लिए इन या अन्य तकनीकों के स्तर को क्रैंक कर सकते हैं। लेकिन ध्यान दें कि नियमितीकरण का अर्थ है पूर्व ज्ञान का थोपना। वजन पर L2 जुर्माना उदाहरण के लिए, वजन से पहले एक गाऊसी का अर्थ है। नियमितीकरण की मात्रा में वृद्धि अनिवार्य रूप से यह बताती है कि आपका पूर्व ज्ञान निश्चित रूप से बढ़ रहा है और उस परिणाम के प्रति आपका पूर्वाग्रह है। तो आप इसे कर सकते हैं और यह कम ओवरफिट करेगा लेकिन पक्षपाती उत्पादन चूस सकता है। जाहिर है कि समाधान बेहतर पूर्व ज्ञान है। छवि मान्यता के लिए, यह आपकी समस्या के आँकड़ों के बारे में बहुत अधिक संरचित पुजारियों का मतलब होगा। इस दिशा में समस्या यह है कि आप बहुत सारे डोमेन विशेषज्ञता को लागू कर रहे हैं, और मानव विशेषज्ञता को लागू करने से बचना उन कारणों में से एक है जो आपने गहरी शिक्षा का उपयोग किया था।

— एक सरल एल्गोरिथम
स्रोत

पूर्वाग्रह के उल्लेख के लिए +1। पूर्वाग्रह और विचरण के संदर्भ में इस पूरी बात की व्याख्या क्यों नहीं की गई? "ओवरफिटिंग" में एक सटीक गणितीय परिभाषा नहीं है और इसका मतलब है कि कोई भी असंगत डाइकोटॉमी ("ओवरफिट" / "नॉट-ओवरफिट")।

— जोश

2

मेरी सोच को स्पष्ट करने के लिए: मान लीजिए कि हम अपने डेटा को मॉडल करने की कोशिश के लिए एक बड़े डीप एननेट का उपयोग कर रहे हैं, लेकिन डेटा सेट छोटा है और वास्तव में एक रैखिक मॉडल द्वारा मॉडल किया जा सकता है। फिर नेटवर्क वेट इस तरह से क्यों नहीं परिवर्तित होता है कि एक न्यूरॉन रैखिक प्रतिगमन का अनुकरण करता है और अन्य सभी शून्य में परिवर्तित होते हैं? नियमितीकरण इसके साथ मदद क्यों नहीं करता है?

तंत्रिका जाल को इस तरह से प्रशिक्षित किया जा सकता है। यदि उचित L1 नियमितीकरण का उपयोग किया जाता है, तो बहुत अधिक वजन शून्य हो सकता है और इससे तंत्रिका जाल 1 या इतने रैखिक प्रतिगमन न्यूरॉन्स और कई अन्य शून्य शून्य के संघटन की तरह व्यवहार करेंगे। तो हाँ - L1 / L2 नियमितीकरण या उस तरह का उपयोग तंत्रिका नेटवर्क के आकार या प्रतिनिधित्व शक्ति को प्रतिबंधित करने के लिए किया जा सकता है।

वास्तव में मॉडल का आकार अपने आप में एक तरह का नियमितीकरण है - यदि आप मॉडल को बड़ा बनाते हैं, तो इसका मतलब है कि आप समस्या के बारे में पूर्व ज्ञान को इंजेक्ट करते हैं, अर्थात समस्याएँ अत्यधिक जटिल हैं, इसलिए इसे ऐसे मॉडल की आवश्यकता होती है जिनमें उच्च प्रतिनिधित्व वाली शक्ति हो। यदि आप मॉडल को छोटा बनाते हैं, तो इसका मतलब है कि आप ज्ञान को इंजेक्ट करते हैं कि समस्या सरल है इसलिए मॉडल को अधिक क्षमता की आवश्यकता नहीं है।

और इसका मतलब है कि L2 नियमितीकरण नेटवर्क को "विरल" नहीं बनाएगा, जैसा कि आपने वर्णित किया है, क्योंकि L2 नियमितीकरण पूर्व ज्ञान को इंजेक्ट करता है कि प्रत्येक न्यूरॉन (वजन) का योगदान छोटा लेकिन गैर-शून्य होना चाहिए। इसलिए नेटवर्क न्यूरॉन्स के केवल छोटे सेट का उपयोग करने के बजाय प्रत्येक न्यूरॉन्स का उपयोग करेगा।

— rosinality
स्रोत

1

$L_2$ $L_1$

यहाँ एक महत्वपूर्ण बात यह है कि नियमितीकरण हमेशा मददगार नहीं होता है। बल्कि, जो सच होना चाहिए , उसकी ओर नियमित होना बहुत मददगार है, लेकिन गलत दिशा में नियमित रूप से स्पष्ट रूप से बुरा है।

$L_2$

लेकिन अब मान लीजिए कि हमारा डेटा बिल्लियों की छवियों को एक गहरे तंत्रिका नेटवर्क में खिलाया गया है। यदि "नुकीले कान" वास्तव में, बिल्लियों की पहचान करने के लिए बहुत सहायक हैं, तो शायद हम इस अधिक पूर्वानुमानित शक्ति को देने के लिए जुर्माना कम करना चाहेंगे। लेकिन हम पता नहीं है जहां नेटवर्क में इस प्रतिनिधित्व किया जाएगा! हम अभी भी दंड लागू कर सकते हैं ताकि सिस्टम का कुछ छोटा हिस्सा पूरे नेटवर्क पर हावी न हो, लेकिन इसके बाहर, नियमित रूप से एक सार्थक तरीके से पेश करना मुश्किल है।

सारांश में, पूर्व सूचना को हम समझ नहीं पाने वाली प्रणाली में शामिल करना बेहद कठिन है।

— क्लिफ एबी
स्रोत

नियमितीकरण से डेटा के लिए डीप न्यूरल नेट्स की भूख क्यों नहीं मिटती?

(इर) प्रासंगिक मामला: बहुपद प्रतिगमन