क्या कोई पर्यवेक्षण-सीखने की समस्या है जो (गहरी) तंत्रिका नेटवर्क स्पष्ट रूप से किसी भी अन्य तरीकों से बेहतर प्रदर्शन नहीं कर सकती है?


33

मैंने देखा है कि लोगों ने एसवीएम और कर्नेल पर बहुत प्रयास किए हैं, और वे मशीन लर्निंग में एक स्टार्टर के रूप में बहुत दिलचस्प लगते हैं। लेकिन अगर हम उम्मीद करते हैं कि लगभग-हमेशा हम न्यूरल नेटवर्क के मामले में बेहतर समाधान पा सकते हैं, तो इस युग में अन्य तरीकों को आजमाने का क्या मतलब है?

यहाँ इस विषय पर मेरी अड़चन है।

  1. हम केवल सुपरवाइज्ड-लर्निंग के बारे में सोचते हैं; प्रतिगमन, और वर्गीकरण।
  2. परिणाम की पठनीयता की गणना नहीं की जाती है; सुपरवाइज्ड-लर्निंग समस्या पर केवल सटीकता ही मायने रखती है।
  3. कम्प्यूटेशनल-कॉस्ट विचार में नहीं है।
  4. मैं यह नहीं कह रहा हूं कि कोई भी अन्य तरीका बेकार है।

3
उपलब्ध प्रशिक्षण डेटा की मात्रा पर कोई बाधा?
जेक वेस्टफॉल

1
मैंने ऐसा नहीं किया है, लेकिन मुझे उम्मीद है कि आप एक कठिन समय के लिए एक तंत्रिका नेटवर्क को प्रशिक्षित करने का एक नरक होगा, जैसे कि गैर-तुच्छ आकार के मैट्रिक्स पर एक विलक्षण-मूल्य अपघटन (जैसे, रैंक> 10)।
मेहरदाद

1
Google अनुवाद अब तंत्रिका नेटवर्क का उपयोग करता है , और अब एक ब्राज़ीलियाई शहर के नाम के लिए और अधिक उत्सुक विफलताओं का उत्पादन करता है जहां एक शब्द का शब्द-उपयोग एक शब्द के लिए बेहतर होता है
हेनरी

मैंने मैट्रिक्स पूर्णता के उपयोग के लिए गहरी शिक्षा के बारे में कभी नहीं सुना है (हालाँकि गहरी शिक्षा से पहले मैट्रिक्स का उपयोग करना आम बात है)। आप यह तर्क दे सकते हैं कि यह एक कम्प्यूटेशनल-लागत का मुद्दा हो सकता है, लेकिन यह भी ध्यान देने योग्य है कि मुझे नहीं पता कि दुनिया के सभी कंप्यूटर नेटफ्लिक्स समस्या के साथ गहरी सीखने के मैट्रिक्स को पूरा कर सकते हैं या नहीं।
क्लिफ एबी

@ क्लिफ़ैब: (जीभ आधे रास्ते गाल में ...) यह शायद ध्यान देने योग्य है कि वे करने में सक्षम नहीं हो सकते हैं, लेकिन मुझे यकीन नहीं है कि यह ध्यान देने योग्य है कि आप नहीं जानते कि वे करने में सक्षम हैं;)
मेहरदाद

जवाबों:


31

यहां एक सैद्धांतिक और दो व्यावहारिक कारण हैं कि कोई तर्कसंगत रूप से गैर-डीएनएन दृष्टिकोण क्यों पसंद कर सकता है।

  1. वोल्परट और मैकडरे से नो फ्री लंच प्रमेय कहते हैं

    हमने एनएफएल प्रमेयों से संबंधित परिणामों को डब किया है क्योंकि वे प्रदर्शित करते हैं कि यदि एल्गोरिथ्म समस्याओं के एक निश्चित वर्ग पर अच्छा प्रदर्शन करता है तो यह जरूरी है कि शेष सभी समस्याओं के सेट पर अपमानित प्रदर्शन के साथ।

    दूसरे शब्दों में, कोई एकल एल्गोरिथ्म उन सभी पर शासन नहीं करता है; आपको बेंचमार्क मिल गया है।

    यहाँ स्पष्ट खंडन है कि आप आमतौर पर के बारे में परवाह नहीं है है सब संभव समस्याओं, और गहरी सीखने की समस्याओं के कई वर्गों पर अच्छी तरह से काम करने के लिए है कि लोगों को लगता है कर के बारे में (जैसे, वस्तु की पहचान), और इसलिए यह एक उचित पहले / एकमात्र विकल्प है ध्यान उन डोमेन में अन्य अनुप्रयोगों के लिए।

  2. इनमें से बहुत गहरे नेटवर्क को फिट होने के लिए टन डेटा की आवश्यकता होती है, साथ ही साथ गणना के टन की भी आवश्यकता होती है। यदि आपके पास (उदाहरण) 500 उदाहरण हैं, तो एक बीस लेयर नेटवर्क कभी भी अच्छी तरह से सीखने वाला नहीं है, जबकि यह बहुत सरल मॉडल को फिट करने के लिए संभव हो सकता है। समस्याओं की एक आश्चर्यजनक संख्या है, जहां डेटा का एक टन एकत्र करना संभव नहीं है। दूसरी ओर, कोई व्यक्ति संबंधित समस्या (जहां अधिक डेटा उपलब्ध है) को हल करने के लिए सीखने की कोशिश कर सकता है, इसे विशिष्ट कम डेटा-उपलब्धता-कार्य के लिए अनुकूलित करने के लिए स्थानांतरण सीखने जैसी किसी चीज़ का उपयोग करें।

  3. डीप न्यूरल नेटवर्क में असामान्य विफलता मोड भी हो सकते हैं। कुछ कागजात दिखा रहे हैं कि मुश्किल से मानव-बोधगम्य परिवर्तन एक नेटवर्क को सही ढंग से वर्गीकृत करने से लेकर इसे गलत तरीके से वर्गीकृत करने तक फ्लिप करने का कारण बन सकते हैं । ( यहां देखें और सज़ीदी एट अल द्वारा पेपर के साथ ।) अन्य दृष्टिकोण इसके खिलाफ अधिक मजबूत हो सकते हैं: एसवीएम के खिलाफ विषाक्तता के हमले होते हैं (उदाहरण के लिए, यह Biggio, नेल्सन और लास्कोव द्वारा), लेकिन वे परीक्षण के बजाय ट्रेन में होते हैं। पहर। विपरीत चरम पर, निकटतम-पड़ोसी एल्गोरिथ्म के लिए ज्ञात (लेकिन महान नहीं) प्रदर्शन सीमाएं हैं। कुछ स्थितियों में, आप तबाही की कम संभावना के साथ कम समग्र प्रदर्शन के साथ खुश हो सकते हैं।


मैंने आपकी हर बात मान ली। लेकिन समस्या "कम्प्यूटेशनल मुद्दों की अनदेखी" के बारे में है। इसका मतलब है कि ओपी मानता है, आपके पास अनंत नमूने और अनंत कंप्यूटिंग संसाधन होंगे।
लघुशंका

17
अनंत गणना! = अनंत नमूने। उदाहरण के लिए, मेरे पास प्रोसेसिंग डेटा के लिए आश्चर्यजनक रूप से बड़े क्लस्टर तक पहुंच है। हालाँकि, जो प्रयोगशाला प्रयोग हम वास्तव में करते हैं, उनमें से कुछ डेटा मुश्किल, धीमे और समय लेने वाले होते हैं (एकल डेटा बिंदु के लिए घंटों से दिनों के क्रम पर) और दुनिया में सभी गणना में मदद नहीं मिलेगी ।
मैट क्राउज

2
किसी भी फ़ीचर एक्सट्रैक्टर के साथ एसवीएम केवल सीएनएन के रूप में प्रतिकूल इनपुट के लिए असुरक्षित हैं - यह उन्हें खोजने के लिए बस कठिन है, क्योंकि हमारे पास सुविधा निष्कर्षण परतों के आसानी से उपलब्ध नहीं हैं।
डगल

1
@MattKrause समस्या का हालिया और दिलचस्प वास्तविक जीवन का उदाहरण देता है और स्थानांतरण सीखने का उपयोग करके इसे प्रसारित करने का प्रयास सिम-टू-रियल रोबोट लर्निंग में पिक्सेल से प्रोग्रेसिव नेट्स के साथ
HBeel

@ डगल, मुझे यह भी आश्चर्य होता है कि क्या यह मायने रखता है कि डीएनएन-फीचर-एक्सट्रैक्टर्स सीखे गए हैं, जबकि एसवीएम वाले (आमतौर पर) हाथ से बने होते हैं और उन विशेषताओं के अनुरूप होते हैं जो मानव नोटिस करते हैं। पांडा के उदाहरण से जो बात सामने आती है वह इतनी प्रतिकूल है कि प्रतिकूल उदाहरण और नियमित के बीच अंतर है।
मैट क्रॉज

24

ज्योफ हिंटन (तंत्रिका नेटवर्क पर अपने कसेरा कोर्स से) के व्याख्यान की इस प्लेलिस्ट पर कहीं न कहीं एक खंड है जहां वह समस्याओं के दो वर्गों के बारे में बात करते हैं:

  1. समस्याएँ जहाँ शोर प्रमुख विशेषता है,
  2. समस्याएं जहां सिग्नल प्रमुख विशेषता है।

मुझे यह स्पष्टीकरण याद है कि जब तंत्रिका जाल इस बाद वाले स्थान में पनपते हैं, तो पारंपरिक सांख्यिकीय तरीके अक्सर पूर्व के लिए बेहतर होते हैं। दुनिया में वास्तविक चीजों की उच्च-रिज़ॉल्यूशन वाली डिजिटल तस्वीरों का विश्लेषण, एक जगह है जहाँ गहरी कंसिस्टेंट नेट एक्सिल करते हैं, स्पष्ट रूप से उत्तरार्द्ध का गठन करते हैं।

दूसरी ओर, जब शोर प्रमुख विशेषता है, उदाहरण के लिए, 50 मामलों और 50 नियंत्रणों के साथ एक मेडिकल केस-कंट्रोल अध्ययन में, पारंपरिक सांख्यिकीय तरीके समस्या के लिए बेहतर अनुकूल हो सकते हैं।

यदि किसी को वह वीडियो मिल जाए, तो कृपया टिप्पणी करें और मैं अपडेट कर दूंगा।


बहुत बढ़िया जवाब। सटीक रूप से हम उन चीज़ों के लिए गहन सीखने की ओर मुड़ते हैं जो हम पहले से ही कर सकते हैं (जैसे छवियों को पहचानें और पाठ लिखें) लेकिन उन चीजों के लिए अन्य मॉडलों की ओर मुड़ सकते हैं जो सहज रूप से मुश्किल हो सकती हैं।
मुस्तफा एस आइसा

मैं व्यक्तिगत रूप से इस जवाब को अपने सबसे बड़े हित में लेता हूं। उत्तर के लिए बहुत बहुत धन्यवाद।
रॉबिन

13

दो रैखिक पूर्णतया सहसंबद्ध चर। क्या 1 मिलियन छिपी परतों और 2 ट्रिलियन न्यूट्रॉन के साथ गहरे नेटवर्क एक साधारण रैखिक प्रतिगमन को हरा सकते हैं?

संपादित

मेरे अनुभव में, नमूना संग्रह गणना की तुलना में अधिक महंगा है। मेरा मतलब है, हम सिर्फ कुछ अमेज़ॅन इंस्टेंस को किराए पर ले सकते हैं, गहन शिक्षण प्रशिक्षण चला सकते हैं और फिर कुछ दिनों बाद वापस आ सकते हैं। मेरे क्षेत्र में लागत लगभग $ 200 USD है। लागत कम से कम है। मेरे सहयोगी एक दिन में उससे अधिक कमाते हैं।

नमूना संग्रह में आमतौर पर डोमेन ज्ञान और विशेष उपकरणों की आवश्यकता होती है। डीप लर्निंग केवल सस्ते और आसान एक्सेस डेटा सेट की समस्याओं के लिए उपयुक्त है, जैसे कि प्राकृतिक भाषा प्रसंस्करण, छवि प्रसंस्करण और कुछ भी जो आप इंटरनेट से दूर कर सकते हैं।


1
बेशक किसी भी MLE विधि MLE की मान्यताओं को पूरा करने वाले जेनरेटिंग मॉडल पर डीप लर्निंग कंडीशनल आउट कर देगी । हालांकि, वास्तविक डेटा पर, या कम से कम किसी भी दिलचस्प समस्या के लिए ऐसा कभी नहीं होता (यानी सिक्का फ्लिप के परिणाम की भविष्यवाणी नहीं)। इसलिए मुझे लगता है कि ओपी वास्तविक आंकड़ों के साथ ब्याज के वास्तविक सवालों से जुड़े उदाहरणों के लिए पूछ रहा है।
क्लिफ एबी

यह बहुत अच्छा जवाब है। आपने बहुत सहज और यथार्थवादी दृष्टिकोण प्रस्तुत किया है। बहुत बहुत धन्यवाद।
रॉबिन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.