क्या कोई (सैद्धांतिक रूप से) वजन से कम प्रशिक्षण नमूनों के साथ एक तंत्रिका नेटवर्क को प्रशिक्षित कर सकता है?


12

सबसे पहले: मुझे पता है, एक तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए आवश्यक सामान्य आकार का कोई नमूना नहीं है। यह कार्य की जटिलता, डेटा में शोर और इतने पर जैसे कई कारकों पर निर्भर करता है। और मेरे पास जितने अधिक प्रशिक्षण नमूने होंगे, उतना ही बेहतर मेरा नेटवर्क होगा।

लेकिन मैं सोच रहा था: क्या सैद्धांतिक रूप से वजन की तुलना में कम प्रशिक्षण नमूनों के साथ एक तंत्रिका नेटवर्क को प्रशिक्षित करना संभव है, अगर मैं अपने काम को "सरल" पर्याप्त मानता हूं? किसी को भी एक उदाहरण पता है जहां यह काम किया? या यह नेटवर्क लगभग निश्चित रूप से खराब प्रदर्शन करेगा?

यदि मैं उदाहरण के लिए, बहुपद प्रतिगमन पर विचार करता हूं, तो मैं केवल 4 डेटा बिंदुओं पर डिग्री 4 (यानी 5 मुक्त मापदंडों के साथ) के बहुपद को फिट नहीं कर सकता। क्या तंत्रिका नेटवर्क के लिए एक समान नियम है, मेरे भार को मुक्त मापदंडों की संख्या के रूप में देखते हुए?


हां: यदि भार को यादृच्छिक रूप से प्रारंभ किया जाता है, तो शून्य प्रशिक्षण नमूनों के साथ भी पूरी तरह से प्रशिक्षित तंत्रिका नेटवर्क प्राप्त करना सैद्धांतिक रूप से संभव है। (एक टिप्पणी के रूप में पोस्ट करना, एक उत्तर नहीं, जैसा कि मुझे पता है कि यह वास्तव में आप क्या पूछ रहे हैं नहीं है।)
डैरेन कुक

जवाबों:


17

लोग बड़े नेटवर्क के साथ हर समय ऐसा करते हैं। उदाहरण के लिए, प्रसिद्ध एलेक्सनेट नेटवर्क में लगभग 60 मिलियन पैरामीटर हैं, जबकि ImageNet ILSVRC में मूल रूप से केवल 1.2 मिलियन छवियों पर प्रशिक्षित किया गया था।

5-पैरामीटर बहुपद से लेकर 4 डेटा बिंदुओं तक फिट नहीं होने का कारण यह है कि यह हमेशा एक फ़ंक्शन पा सकता है जो आपके डेटा बिंदुओं को बिल्कुल फिट करता है, लेकिन कहीं और निरर्थक बातें करता है। खैर, जैसा कि हाल ही में नोट किया गया था , एलेक्सनेट और इसी तरह के नेटवर्क इमेजनेट पर लगाए गए मनमाने ढंग से यादृच्छिक लेबल फिट कर सकते हैं और बस उन सभी को याद कर सकते हैं, संभवतः क्योंकि उनके पास प्रशिक्षण बिंदुओं की तुलना में बहुत अधिक पैरामीटर हैं। लेकिन स्टोचस्टिक ढाल डिसेंट ऑप्टिमाइज़ेशन प्रक्रिया के साथ संयुक्त नेटवर्क के पुजारियों के बारे में कुछ का मतलब है कि व्यवहार में, ये मॉडल अभी भी नए डेटा बिंदुओं को सामान्य कर सकते हैं जब आप उन्हें असली लेबल देते हैं। हम अभी भी वास्तव में नहीं समझते कि ऐसा क्यों होता है।


2
+1। क्या मैं इसे बहुपद प्रतिगमन के साथ तुलना के लिए जोड़ सकता हूं, मैं यह भी विचार करूंगा कि नमूने अत्यधिक आयामी हैं। ImageNet पर औसत छवि रिज़ॉल्यूशन लगभग 469x387 पिक्सेल है, अगर 256x256 पर क्रॉप किया जाता है, तो हमारे पास 1.2 मिलियन 65k इनपुट पैरामीटर हैं, जो प्रत्येक नमूने के भीतर अत्यधिक सहसंबद्ध हैं, इस प्रकार तंत्रिका नेटवर्क (और विशेष रूप से एक प्रासंगिक एनएन) को बहुत अधिक जानकारी प्रदान करते हैं। बहुपद प्रतिगमन मामले की तुलना में।
जेजमोंटेस

3
@jjmontes सच है, लेकिन मुख्य रहस्य यह है कि ये नेटवर्क याद रखने और सामान्य करने (अच्छी तरह से) दोनों करने की क्षमता रखते हैं। दूसरे शब्दों में, वे यादृच्छिक लेबल के साथ प्रशिक्षण डेटा को चकनाचूर कर सकते हैं, और अभी भी अच्छी तरह से सामान्यीकृत कर सकते हैं। यह कुछ ऐसा नहीं है जो पारंपरिक एमएल तरीकों में दिखता है।
एमिलियो वाज़केज़-रीना

6

यदि आप डेटा की तुलना में कोई अन्य बाधा नहीं लगाते हैं, तो केवल पूर्वनिर्धारित सिस्टम को कम करके आंका जाता है। अपने उदाहरण के साथ चिपके हुए, 4-बिंदु बहुपद को 4 डेटा बिंदुओं पर फिट करने का मतलब है कि आपके पास डेटा द्वारा बाध्य नहीं की गई स्वतंत्रता की एक डिग्री है, जो आपको समान रूप से अच्छे समाधानों की एक पंक्ति (गुणांक स्थान) के साथ छोड़ देती है। हालांकि, आप समस्या को सुगम बनाने के लिए विभिन्न नियमितीकरण तकनीकों का उपयोग कर सकते हैं। उदाहरण के लिए, गुणांक के एल 2-मानदंड (यानी वर्गों का योग) पर जुर्माना लगाकर, आप यह सुनिश्चित करते हैं कि उच्चतम फिटनेस के साथ हमेशा एक अनूठा समाधान होता है।

तंत्रिका नेटवर्क के लिए नियमितीकरण तकनीक भी मौजूद है, इसलिए आपके प्रश्न का संक्षिप्त उत्तर 'हां, आप कर सकते हैं' है। विशेष रूप से रुचि "ड्रॉपआउट" नामक एक तकनीक है, जिसमें वजन के प्रत्येक अद्यतन के लिए, आप नेटवर्क से नोड्स के एक निश्चित सबसेट को बेतरतीब ढंग से 'ड्रॉप' करते हैं। अर्थात्, लर्निंग एल्गोरिदम के उस विशेष पुनरावृत्ति के लिए, आप इन नोड्स का दिखावा नहीं करते हैं। ड्रॉपआउट के बिना, नेट इनपुट के बहुत ही जटिल निरूपण को सीख सकता है जो कि सिर्फ एक साथ काम करने वाले सभी नोड्स पर निर्भर करता है। इस तरह के प्रतिनिधित्व सामान्य होने वाले पैटर्न खोजने के बजाय प्रशिक्षण डेटा को 'याद' करने की संभावना रखते हैं। ड्रॉपआउट सुनिश्चित करता है कि नेटवर्क प्रशिक्षण डेटा को फिट करने के लिए एक साथ सभी नोड्स का उपयोग नहीं कर सकता है; यह कुछ नोड्स के गुम होने पर भी डेटा का अच्छी तरह से प्रतिनिधित्व करने में सक्षम होना चाहिए,

यह भी ध्यान दें कि ड्रॉपआउट का उपयोग करते समय, प्रशिक्षण के दौरान किसी भी बिंदु पर स्वतंत्रता की डिग्री वास्तव में प्रशिक्षण नमूनों की संख्या से छोटी हो सकती है, भले ही कुल मिलाकर आप प्रशिक्षण नमूनों की तुलना में अधिक वजन सीख रहे हों।


2
यह संभवतः उस भूमिका को समाप्त कर देता है जो नियमित रूप से नियमित रूप से गहरे जाल में खेलती है: इस पेपर को मैंने अपने उत्तर में संदर्भित किया है जो ड्रॉपआउट और नियमितीकरण के अन्य रूपों से पता चलता है कि नेटवर्क कितना कम याद रख सकता है। हालाँकि, यह हो सकता है कि आपकी मूल कहानी सही हो, लेकिन नाटक में मुख्य नियमितीकरण का मतलब है कि यह SGD से एक है; यह सब अभी भी कुछ हद तक नकली है।
डगल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.