डीप लर्निंग के लिए कितना डेटा?


10

मैं गहरी सीखने (विशेष रूप से सीएनएन) के बारे में सीख रहा हूं, और यह कैसे आम तौर पर ओवरफिटिंग को रोकने के लिए एक भयानक डेटा की आवश्यकता होती है। हालाँकि, मुझे यह भी बताया गया है कि एक मॉडल के पास जितनी अधिक क्षमता / अधिक पैरामीटर होते हैं, उतने अधिक डेटा को रोकने के लिए आवश्यक होता है। इसलिए, मेरा सवाल यह है: आप एक गहरे तंत्रिका नेटवर्क में प्रति परत परतों / नोड्स की संख्या को कम क्यों नहीं कर सकते हैं, और इसे कम मात्रा में डेटा के साथ काम कर सकते हैं? क्या एक मौलिक "न्यूनतम संख्या पैरामीटर" है जिसे एक तंत्रिका नेटवर्क की आवश्यकता होती है जब तक कि यह "किक" नहीं करता है? परतों की एक निश्चित संख्या के नीचे, तंत्रिका नेटवर्क के रूप में अच्छी तरह से हाथ से कोडित सुविधाओं का प्रदर्शन नहीं लगता है।

जवाबों:


11

यह एक महान प्रश्न है और वास्तव में आपके द्वारा उल्लेखित क्षमता / गहराई के मुद्दों से निपटने के लिए कुछ शोध हुए हैं।

इस बात के बहुत से प्रमाण हैं कि जटिल तंत्रिका नेटवर्क में गहराई से समृद्ध और अधिक विविध सुविधा पदानुक्रम सीखने के लिए प्रेरित किया गया है। सामान्यतया हम देखते हैं कि सबसे अच्छा प्रदर्शन करने वाले जाल "गहरे" होते हैं: ऑक्सफोर्ड वीजीजी-नेट में 19 परतें थीं, Google इनसेप्शन आर्किटेक्चर गहरा है, Microsoft डीप रेसिडुअल नेटवर्क की रिपोर्ट 152 लेयर्स है, और ये सभी बहुत प्रभावशाली इमेजनेटमार्क प्राप्त कर रहे हैं परिणाम है।

सतह पर, यह एक तथ्य है कि उच्च क्षमता वाले मॉडल ओवरफिट करने की प्रवृत्ति रखते हैं जब तक कि आप किसी प्रकार के रेगुलराइज़र का उपयोग नहीं करते हैं। एक तरह से बहुत गहरे नेटवर्क ओवरफिटिंग के प्रदर्शन को चोट पहुंचा सकते हैं, वे बहुत कम प्रशिक्षण अवधि में बहुत कम प्रशिक्षण त्रुटि का सामना करेंगे, अर्थात हम बड़ी संख्या में डेटासेट के माध्यम से नेटवर्क को प्रशिक्षित नहीं कर सकते हैं। ड्रॉपआउट, एक स्टोचस्टिक नियमितीकरण तकनीक जैसी तकनीक, हमें लंबे समय तक बहुत गहरे जाल को प्रशिक्षित करने की अनुमति देती है। यह प्रभाव हमें बेहतर सुविधाओं को सीखने और हमारी वर्गीकरण सटीकता में सुधार करने की अनुमति देता है क्योंकि हम प्रशिक्षण डेटा के माध्यम से अधिक पास प्राप्त करते हैं।

अपने पहले प्रश्न के संबंध में:

आप एक गहरे तंत्रिका नेटवर्क में प्रति परत / परतों की संख्या को कम क्यों नहीं कर सकते हैं, और इसे कम मात्रा में डेटा के साथ काम कर सकते हैं?

यदि हम प्रशिक्षण सेट आकार को कम करते हैं, तो यह सामान्यीकरण प्रदर्शन को कैसे प्रभावित करता है? यदि हम एक छोटे प्रशिक्षण सेट आकार का उपयोग करते हैं, तो इसका परिणाम छोटे वितरित सुविधा प्रतिनिधित्व सीखने में हो सकता है, और इससे हमारी सामान्यीकरण क्षमता प्रभावित हो सकती है। अंततः, हम अच्छी तरह से सामान्यीकरण करने में सक्षम होना चाहते हैं। एक बड़ा प्रशिक्षण सेट होने से हमें अधिक विविध वितरित सुविधा पदानुक्रम सीखने की अनुमति मिलती है।

अपने दूसरे प्रश्न के संबंध में:

क्या एक मौलिक "न्यूनतम संख्या पैरामीटर" है जिसे एक तंत्रिका नेटवर्क की आवश्यकता होती है जब तक कि यह "किक" नहीं करता है? परतों की एक निश्चित संख्या के नीचे, तंत्रिका नेटवर्क के रूप में अच्छी तरह से हाथ से कोडित सुविधाओं का प्रदर्शन नहीं लगता है।

अब गहराई के मुद्दे के बारे में उपरोक्त चर्चा में कुछ बारीकियों को जोड़ते हैं। ऐसा प्रतीत होता है, यह देखते हुए कि हम वर्तमान में कला की वर्तमान स्थिति के साथ हैं, खरोंच से एक उच्च प्रदर्शन वाले कॉन नेट को प्रशिक्षित करने के लिए, किसी प्रकार की गहरी वास्तुकला का उपयोग किया जाता है।

लेकिन परिणामों की एक स्ट्रिंग है जो मॉडल संपीड़न पर केंद्रित है । तो यह आपके सवाल का सीधा जवाब नहीं है, लेकिन यह संबंधित है। मॉडल संपीड़न में निम्नलिखित प्रश्न में रुचि है: एक उच्च प्रदर्शन मॉडल (हमारे मामले में एक गहरी सजा जाल कहते हैं) को देखते हुए, क्या हम मॉडल को संकुचित कर सकते हैं, यह गहराई या यहां तक ​​कि पैरामीटर गणना को कम कर सकते हैं और उसी प्रदर्शन को बनाए रख सकते हैं?

हम शिक्षक के रूप में उच्च प्रदर्शन, उच्च क्षमता वाले सजा नेट देख सकते हैं । क्या हम अधिक कॉम्पैक्ट छात्र मॉडल को प्रशिक्षित करने के लिए शिक्षक का उपयोग कर सकते हैं ?

आश्चर्यजनक रूप से उत्तर है: हाँ । परिणामों की एक श्रृंखला है, शुद्ध शुद्ध परिप्रेक्ष्य के लिए एक अच्छा लेख रिच कारुआना और जिमी बा डू डीप नेट्स का एक लेख है वास्तव में गहरी होने की आवश्यकता है? । वे प्रदर्शन में बहुत कम नुकसान के साथ, गहरे मॉडल की नकल करने के लिए एक उथले मॉडल को प्रशिक्षित करने में सक्षम हैं । इस विषय पर कुछ और काम भी हुए हैं, उदाहरण के लिए:

अन्य कार्यों के बीच। मुझे यकीन है कि मुझे कुछ और अच्छे लेख याद आ रहे हैं।

मेरे लिए इन प्रकार के परिणामों से सवाल होता है कि वास्तव में इन उथले मॉडल में कितनी क्षमता है। कारुआना, बा लेख में, वे निम्नलिखित संभावना बताते हैं:

"परिणामों से पता चलता है कि गहरी सीखने की ताकत गहरी आर्किटेक्चर और वर्तमान प्रशिक्षण प्रक्रियाओं के बीच एक अच्छे मैच से उत्पन्न हो सकती है, और यह कि अधिक सटीक उथले फीड-फ़ॉर नेट को प्रशिक्षित करने के लिए बेहतर शिक्षण एल्गोरिदम को तैयार करना संभव है। मापदंडों की संख्या, गहराई सीखने को आसान बना सकती है, लेकिन हमेशा आवश्यक नहीं हो सकती है "

यह स्पष्ट होना महत्वपूर्ण है: कारुआना, बा लेख में, वे खरोंच से उथले मॉडल का प्रशिक्षण नहीं दे रहे हैं, अर्थात केवल कला के प्रदर्शन की स्थिति प्राप्त करने के लिए, केवल कक्षा के लेबल से प्रशिक्षण। इसके बजाय, वे एक उच्च प्रदर्शन वाले गहरे मॉडल को प्रशिक्षित करते हैं, और इस मॉडल से वे प्रत्येक डेटापॉइंट के लिए लॉग संभावनाओं को निकालते हैं। हम तो इन लॉग संभावनाओं का अनुमान लगाने के लिए एक उथले मॉडल को प्रशिक्षित करते हैं। इसलिए हम कक्षा लेबल पर उथले मॉडल को प्रशिक्षित नहीं करते हैं, बल्कि इन लॉग संभावनाओं का उपयोग करते हैं।

बहरहाल, यह अभी भी काफी दिलचस्प परिणाम है। हालांकि यह आपके सवाल का सीधा जवाब नहीं देता है, लेकिन यहां कुछ दिलचस्प विचार हैं जो बहुत प्रासंगिक हैं।

मौलिक रूप से: यह याद रखना हमेशा महत्वपूर्ण होता है कि किसी मॉडल की सैद्धांतिक "क्षमता" और आपके मॉडल का अच्छा विन्यास खोजने में अंतर होता है। बाद वाला आपके अनुकूलन के तरीकों पर निर्भर करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.