तंत्रिका नेटवर्क बनाम सब कुछ


15

मुझे Google से इसका संतोषजनक उत्तर नहीं मिला है ।

निश्चित रूप से यदि मेरे पास जो डेटा है वह लाखों लोगों के आदेश का है तो गहन सीखने का तरीका है।

और मैंने पढ़ा है कि जब मेरे पास बड़ा डेटा नहीं है तो शायद मशीन लर्निंग में अन्य तरीकों का उपयोग करना बेहतर होगा। दिया गया कारण अति-फिटिंग है। मशीन लर्निंग: यानी डेटा को देखना, फीचर एक्सट्रैक्ट्स, क्या इकट्ठा किया गया है आदि से नई सुविधाओं को क्राफ्ट करना जैसे कि भारी सहसंबद्ध चर को दूर करना आदि। पूरी मशीन 9 गज की सीखती है।

और मैं सोच रहा था: ऐसा क्यों है कि एक छिपी हुई परत के साथ तंत्रिका नेटवर्क मशीन सीखने की समस्याओं के लिए रामबाण नहीं हैं? वे सार्वभौमिक अनुमानक हैं, ओवर-फिटिंग को ड्रॉपआउट, एल 2 नियमितीकरण, एल 1 नियमितीकरण, बैच-सामान्यीकरण के साथ प्रबंधित किया जा सकता है। प्रशिक्षण गति आम तौर पर एक मुद्दा नहीं है अगर हमारे पास सिर्फ 50,000 प्रशिक्षण उदाहरण हैं। वे परीक्षण के समय की तुलना में बेहतर हैं, हम कहते हैं, यादृच्छिक वन।

तो क्यों नहीं - डेटा को साफ करें, लापता मानों को लागू करें जैसा कि आप आम तौर पर करते हैं, डेटा को केंद्र में रखते हैं, डेटा को मानकीकृत करते हैं, इसे एक छिपे हुए परत के साथ तंत्रिका नेटवर्क के एक समूह से फेंक देते हैं और तब तक नियमित रूप से लागू करते हैं जब तक आप कोई ओवर-फिटिंग नहीं देखते हैं और फिर ट्रेन करते हैं। उन्हें अंत तक। क्रमिक विस्फोट या ढाल गायब होने के साथ कोई समस्या नहीं है क्योंकि यह सिर्फ 2 स्तरित नेटवर्क है। यदि गहरी परतों की आवश्यकता होती है, तो इसका मतलब है कि पदानुक्रमित सुविधाओं को सीखना है और फिर अन्य मशीन लर्निंग एल्गोरिदम भी अच्छे नहीं हैं। उदाहरण के लिए एसवीएम एक तंत्रिका नेटवर्क है जिसमें केवल काज हानि होती है।

एक उदाहरण जहां कुछ अन्य मशीन लर्निंग एल्गोरिदम एक सावधानी से नियमित 2 स्तरित (शायद 3?) तंत्रिका नेटवर्क की सराहना करेंगे। आप मुझे समस्या का लिंक दे सकते हैं और मैं सबसे अच्छे तंत्रिका नेटवर्क को प्रशिक्षित करूंगा जो मैं कर सकता हूं और हम देख सकते हैं कि क्या 2 स्तरित या 3 स्तरित तंत्रिका नेटवर्क किसी अन्य बेंचमार्क मशीन लर्निंग एल्गोरिदम से कम हो जाते हैं।


14
न्यूरल नेटवर्क एक मशीन लर्निंग एल्गोरिथम हैं ...
मैथ्यू ड्र्यू

6
निश्चित रूप से कुछ डोमेन हैं जहां गहरी शिक्षा राजा है, जैसे कि छवि मान्यता, लेकिन अधिकांश अन्य क्षेत्रों में वे क्रमिक बूस्टिंग पर हावी होते हैं, जैसा कि केगल प्रतियोगिताओं के परिणामों को देखने से स्पष्ट है।
जेक वेस्टफॉल

1
@MatthewDrury - वास्तव में यह है! शब्दावली में घटिया होने के लिए क्षमा याचना। मुझे उम्मीद है कि संदेश संदेश दिया गया था। फिर भी प्रश्न को बदलना, अधिक मजबूत होना। इशारा करने के लिए आपका धन्यवाद
MiloMinderbinder

1
नेटवर्क की गहराई के बारे में, निश्चित रूप से इसे देखें: आंकड़े.stackexchange.com/questions/182734
jld

जवाबों:


31

प्रत्येक मशीन लर्निंग एल्गोरिदम में एक अलग आगमनात्मक पूर्वाग्रह होता है, इसलिए तंत्रिका नेटवर्क का उपयोग करना हमेशा उचित नहीं होता है। एक रेखीय प्रवृत्ति हमेशा अरेखीय नेटवर्क के एक संयोजन के बजाय सरल रैखिक प्रतिगमन द्वारा सबसे अच्छी तरह से सीखी जाएगी।

यदि आप पिछले कग्गल प्रतियोगिताओं के विजेताओं पर एक नज़र डालते हैं, तो छवि / वीडियो डेटा के साथ किसी भी चुनौती को छोड़कर, आप जल्दी से पाएंगे कि तंत्रिका नेटवर्क सब कुछ का समाधान नहीं है। कुछ पिछले समाधान यहाँ।

नियमितीकरण लागू करें जब तक आप कोई ओवर-फिटिंग नहीं देखते हैं और फिर उन्हें अंत तक प्रशिक्षित करते हैं

इसमें कोई गारंटी नहीं है कि आप कुछ भी सीखने के लिए नेटवर्क की क्षमता को पूरी तरह से नष्ट किए बिना ओवरफिटिंग को रोकने के लिए पर्याप्त नियमितीकरण लागू कर सकते हैं। वास्तविक जीवन में, ट्रेन-परीक्षण अंतर को समाप्त करने के लिए शायद ही संभव है, और यही कारण है कि कागजात अभी भी ट्रेन और परीक्षण के प्रदर्शन की रिपोर्ट करते हैं।

वे सार्वभौमिक अनुमानक हैं

यह केवल यूनिटों की एक निर्बाध संख्या होने की सीमा में सच है, जो यथार्थवादी नहीं है।

आप मुझे समस्या का लिंक दे सकते हैं और मैं सबसे अच्छे तंत्रिका नेटवर्क को प्रशिक्षित करूँगा जो हम कर सकते हैं और हम देख सकते हैं कि 2 स्तरित या 3 स्तरित तंत्रिका नेटवर्क किसी अन्य बेंचमार्क मशीन लर्निंग एल्गोरिदम से कम हो जाते हैं या नहीं

एक उदाहरण समस्या जिसकी मुझे एक तंत्रिका नेटवर्क से उम्मीद है वह कभी भी हल नहीं कर पाएगी: एक पूर्णांक को देखते हुए, प्रधान या नहीं के रूप में वर्गीकृत करें।

मेरा मानना ​​है कि यह एक सरल एल्गोरिथ्म के साथ पूरी तरह से हल किया जा सकता है जो आरोही लंबाई में सभी मान्य कार्यक्रमों पर आधारित है और सबसे छोटे प्रोग्राम को ढूंढता है जो सही ढंग से अभाज्य संख्याओं की पहचान करता है। दरअसल, यह 13 कैरेक्टर रेगेक्स स्ट्रिंग प्राइम नंबरों से मेल खा सकता है, जो सर्च करने के लिए कम्प्यूटेशनल रूप से अट्रैक्टिव नहीं होगा।


क्या नियमितीकरण एक से एक मॉडल ले सकता है जो नियमित रूप से अपनी प्रतिनिधित्वात्मक शक्ति को गंभीर रूप से प्रभावित करता है? वहाँ हमेशा के बीच में है कि मिठाई जगह नहीं होगी?

हां, एक मीठा स्थान है, लेकिन इससे पहले कि आप ओवरफिट करना बंद कर दें, यह आमतौर पर तरीका है। यह आंकड़ा देखें:

http://gluon.mxnet.io/_images/regularization-overfitting.png

यदि आप क्षैतिज अक्ष को फ्लिप करते हैं और इसे "नियमितीकरण की मात्रा" के रूप में स्थानांतरित करते हैं, तो यह बहुत सटीक है - यदि आप नियमित करते हैं जब तक कि कोई भी ओवरफिटिंग न हो, तो आपकी त्रुटि बहुत बड़ी होगी। "स्वीट स्पॉट" तब होता है जब थोड़ा ओवरफिटिंग होता है, लेकिन बहुत अधिक नहीं।

एक 'सिंपल एल्गोरिथ्म' कैसे है जो आरोही लंबाई में सभी वैध कार्यक्रमों पर निर्भर करता है और सबसे छोटे प्रोग्राम को खोजता है जो कि अभाज्य संख्याओं की सही पहचान करता है। ' एक एल्गोरिथ्म जो सीखता है?

θएच(θ)θ


इसलिए यदि मैं आपको सही तरीके से समझाता हूं तो आप यह तर्क दे रहे हैं कि यदि डेटा पर्याप्त नहीं है, तो नेटवर्क कभी भी उथले नेटवर्क के सत्यापन की सटीकता पर प्रहार नहीं करेगा, जो दोनों के लिए सबसे अच्छा हाइपरपैरमीटर दिया गया है?

हाँ। यहाँ मेरी बात को स्पष्ट करने के लिए एक बदसूरत लेकिन उम्मीद के मुताबिक प्रभावी आंकड़ा है। https://i.imgur.com/nM3aI2l.png

लेकिन यह समझ में नहीं आता है। एक गहरा नेटवर्क उथले के ऊपर 1-1 मानचित्रण सीख सकता है

सवाल "यह नहीं कर सकता" है, लेकिन "यह" होगा, और यदि आप बैकप्रोपैजेशन का प्रशिक्षण ले रहे हैं, तो इसका उत्तर शायद नहीं है।

हमने इस तथ्य पर चर्चा की कि बड़े नेटवर्क हमेशा छोटे नेटवर्क की तुलना में बेहतर काम करेंगे

आगे की योग्यता के बिना, यह दावा गलत है।


जवाब के लिए धन्यवाद! क्या नियमितीकरण एक से एक मॉडल ले सकता है जो उस पर हावी हो जाता है जिसकी नियमितता से इसकी प्रतिनिधित्वात्मक शक्ति गंभीर रूप से प्रभावित होती है? वहाँ हमेशा के बीच में है कि मिठाई जगह नहीं होगी?
हेलोमिंदरबिंदर

अपने खिलौने की समस्या के बारे में। कैसे एक 'सरल एल्गोरिथ्म है जो आरोही लंबाई में सभी मान्य कार्यक्रमों पर आधारित है और सबसे छोटे प्रोग्राम को खोजता है जो कि अभाज्य संख्याओं की सही पहचान करता है।' एक एल्गोरिथ्म जो सीखता है?
हेलोमिंदरबिंदर

कृपया ध्यान दें cs231n व्याख्यान नोट - 'हमने इस तथ्य पर चर्चा की कि बड़े नेटवर्क हमेशा छोटे नेटवर्क की तुलना में बेहतर काम करेंगे, लेकिन उनकी उच्च मॉडल क्षमता को उचित नियमितीकरण (जैसे उच्च वजन क्षय) के साथ उचित रूप से संबोधित किया जाना चाहिए, या वे ओवरफिट हो सकते हैं। हम बाद के खंडों में नियमितीकरण (विशेषकर ड्रॉपआउट) के और रूपों को देखेंगे। ' cs231n.github.io/neural-networks-1
MiloMinderbinder

@ user46478 मैंने जवाब संपादित करके अपने ऊपर दिए गए प्रश्नों को संबोधित किया
श्यामाओ

'इस बात की कोई गारंटी नहीं है कि आप कुछ भी सीखने के लिए नेटवर्क की क्षमता को पूरी तरह से नष्ट किए बिना ओवरफिटिंग को रोकने के लिए पर्याप्त नियमितीकरण लागू कर सकते हैं।' - मुझे खेद है लेकिन मुझे अभी भी इस कथन की समझ नहीं है। मैं प्रशिक्षण डेटा, {ट्रेन, वैल} स्प्लिट, सबसे बड़ा नेटवर्क अपने मशीन परमिट बनाता हूं, ड्रॉपआउट संभावना को बढ़ाता हूं, जब तक कि मुझे सत्यापन त्रुटि नहीं दिखाई देती है, जो मुझे विभिन्न ड्रॉपआउट संभावनाओं में मिल रही है। क्या यह प्रक्रिया एक अच्छे मॉडल से गुजरे बिना एक ओवर-फिट मॉडल से बेकार हो सकती है?
मिलोमिंदरबिंदर

11

मैं यह जोड़ना चाहूंगा कि रामबाण मशीन सीखने जैसी कोई चीज नहीं है:

तक कोई मुफ्त भोजन प्रमेय:

यदि एक एल्गोरिथ्म समस्याओं के एक निश्चित वर्ग पर अच्छा प्रदर्शन करता है, तो इसके लिए जरूरी है कि शेष सभी समस्याओं के सेट पर अपमानित प्रदर्शन के साथ


यह बहुत निराशाजनक है (लेकिन चिंता मत करो, मैं परिणामों से बहस नहीं करूंगा) 1. इसे पढ़कर मुझे यह समझ में आता है कि यह उन कार्यों पर समान वितरण के साथ एल्गोरिदम के बारे में है जो वे सीख सकते हैं (जिसका मतलब समान सह-डोमेन भी होगा)। इसलिए तंत्रिका नेटवर्क को केवल सार्वभौमिक अनुमानकों के खिलाफ खड़ा किया जा सकता है। 2. यह इस बारे में बात नहीं करता है कि फ़ंक्शन स्पेस को कितनी तेज़ी से खोजा जाता है। क्या हम कह सकते हैं कि 2 छिपी हुई परतों के साथ एक तंत्रिका नेटवर्क जरूरी समान है या हर समस्या पर एक छिपी हुई परत के साथ एक तंत्रिका नेटवर्क से बेहतर है? मुझे लगता है कि निरंतरता की धारणा को यहां बहुत कुछ करना है
मिलोइंडरबाइंडर

दो हाइपर लेयर्ड न्यूरल नेटवर्क के उचित हाइपरपैरेटिंग के साथ, एक ही छिपे हुए लेयर्ड न्यूरल नेटवर्क की तुलना में तेजी से समान सह-डोमेन वाले फ़ंक्शन के माध्यम से कूदता है। आपके इनपुट्स
मिलमिंदरबिंदर

1
'क्या हम कह सकते हैं कि 2 छिपी हुई परतों के साथ एक तंत्रिका नेटवर्क जरूरी समान है या हर समस्या पर एक छिपी हुई परत के साथ एक तंत्रिका नेटवर्क से बेहतर है'। नहीं बदकिस्मती से नहीं। एक काउंटर उदाहरण के रूप में, एक लॉजिस्टिक रिग्रेशन (शून्य छिपी परतों के साथ एक एनएन) की कल्पना करें। एक 1 परत तंत्रिका नेटवर्क बनाम एक पूरी तरह से अलग करने योग्य डेटासेट के लिए डेटा पॉइंट की संख्या के बराबर छिपी हुई इकाइयों की संख्या। निर्णय सीमा के बारे में कोई जानकारी नहीं है कि lr कब्जा नहीं कर सकता है, और उच्च जटिलता nn को ओवरफिट होने की संभावना है
user3684792

3
यहां कथन से सहमत हूं, लेकिन मैं एनएफएल में मानक कैविएट जोड़ना चाहता था, विकिपीडिया पृष्ठ से भी लिया गया: "ध्यान दें कि एनएफएल केवल तभी लागू होता है जब लक्ष्य फ़ंक्शन सभी संभावित कार्यों के एक समान वितरण से चुना जाता है"।
mkt - मोनिका

1
@ user46478 मैं आपके प्रश्न के उत्तर में एनएफएल प्रमेय की प्रासंगिकता से सहमत हूं "ऐसा क्यों है कि एक छिपे हुए परत वाले तंत्रिका नेटवर्क मशीन सीखने की समस्याओं के लिए रामबाण नहीं हैं?"
mkt - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.