क्यों न केवल तंत्रिका नेटवर्क और गहरी सीखने को डंप करें? [बन्द है]


25

सामान्य रूप से गहन सीखने और तंत्रिका नेटवर्क के साथ मौलिक समस्या।

  1. प्रशिक्षण डेटा फिट करने वाले समाधान अनंत हैं। हमारे पास सटीक गणितीय समीकरण नहीं है जो केवल एक ही द्वारा संतुष्ट हो और हम कह सकते हैं कि सामान्यीकरण सर्वोत्तम है। सीधे शब्दों में कहें तो हम नहीं जानते कि कौन सा सबसे अच्छा है।

  2. वजन का अनुकूलन एक उत्तल समस्या नहीं है, इसलिए हम कभी नहीं जानते कि हम एक वैश्विक या स्थानीय न्यूनतम के साथ समाप्त होते हैं।

तो क्यों न केवल तंत्रिका नेटवर्क को डंप करें और इसके बजाय एक बेहतर एमएल मॉडल की खोज करें? कुछ ऐसा जो हम समझते हैं, और कुछ ऐसा जो गणितीय समीकरणों के एक सेट के अनुरूप है? रैखिक और एसवीएम में यह गणितीय कमियां नहीं हैं और यह पूरी तरह से गणितीय समीकरणों के सेट के अनुरूप हैं। क्यों न केवल उसी तर्ज पर सोचा जाए (हालांकि रेखीय होने की आवश्यकता नहीं है) और रैखिक और एसवीएम और तंत्रिका नेटवर्क और गहन सीखने की तुलना में बेहतर एक नए एमएल मॉडल के साथ आते हैं?


37
यदि आप इसे पा लेते हैं, तो लोग करेंगे।
मैथ्यू Drury

23
"क्यों नहीं आया साथ ...?" आप विश्वास नहीं करेंगे कि कितने शोधकर्ता ऐसा करने की कोशिश में व्यस्त हैं! उन्हें अभी तक सफलता नहीं मिली है।
किलन फ़ॉथ

31
"सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं" और nns निश्चित रूप से उपयोगी हैं।
josh

15
@ राजेश दचिराजू - यह एक पुरानी मुहावरा है, लेकिन मैं शायद थोड़ा अस्पष्ट था। आपने पूछा कि एनएन को क्यों नहीं फेंक दिया क्योंकि वे सही नहीं हैं। मेरा प्रतिशोध यह है कि वे सही नहीं हैं, लेकिन वे USEFUL हैं। लोग व्हेल के संरक्षण में, कारों को ऑटोड्राइव करने, विदेशी भाषाओं का अनुवाद करने, वीडियो टैग करने और यहां तक ​​कि उन बकवास स्नैपचैट फ़िल्टर को अपनी तस्वीरों पर लागू करने के लिए उनका उपयोग करते हैं! जैसे वे काम करते हैं, इसलिए हम उनका उपयोग जारी रखते हैं :)
josh

13
आप जानते हैं कि क्या गलत है: न्यूटनियन यांत्रिकी। क्वांटम यांत्रिकी। सापेक्षता। सभी भौतिकी गलत है (सब कुछ का वर्णन करने वाला एक भी मॉडल नहीं है, सभी में उनके दोष हैं)। बहुत सारी चीजों के साथ रसायन विज्ञान पूरी तरह से गलत है (एक परमाणु का वर्णन हमेशा एक अच्छा सन्निकटन होता है लेकिन कभी सटीक नहीं होता)। दुनिया में एकमात्र सही बात गणित है। शुद्ध गणित। बाकी सब कुछ सही जवाब के करीब आता है। क्या हमें बाकी को फेंक देना चाहिए? (गलत कानूनों से निर्मित आपके कंप्यूटर से शुरू?)। फिर से: सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं।
12

जवाबों:


48
  1. यह जानना संभव नहीं है कि कौन सा समाधान सामान्यीकृत करता है एक मुद्दा है, लेकिन यह हमें एक अच्छे समाधान का उपयोग करने से अन्यथा नहीं रोकना चाहिए। मनुष्य स्वयं अक्सर यह नहीं जानता है कि सबसे अच्छा क्या सामान्य करता है (उदाहरण के लिए, भौतिकी के सिद्धांतों को एकीकृत करने वाला), लेकिन इससे हमें बहुत अधिक समस्याएं नहीं होती हैं।

  2. यह दिखाया गया है कि स्थानीय न्यूनताओं के कारण प्रशिक्षण में असफल होना बेहद दुर्लभ है। एक गहरे तंत्रिका नेटवर्क में अधिकांश स्थानीय न्यूनतम वैश्विक मूल्य के करीब हैं, इसलिए यह कोई मुद्दा नहीं है। स्रोत

लेकिन व्यापक उत्तर यह है कि आप पूरे दिन गैर-सहमति और मॉडल चयन के बारे में बात कर सकते हैं, और लोग अभी भी तंत्रिका नेटवर्क का उपयोग केवल इसलिए करेंगे क्योंकि वे किसी भी चीज़ से बेहतर काम करते हैं (कम से कम छवि वर्गीकरण जैसी चीजों पर)।

बेशक वहाँ भी लोग बहस कर रहे हैं कि हमें सीएनएन पर भी ध्यान केंद्रित नहीं करना चाहिए जैसे कि समुदाय कुछ दशकों पहले एसवीएम पर केंद्रित था, और इसके बजाय अगली बड़ी चीज़ की तलाश में रहे। विशेष रूप से, मुझे लगता है कि मुझे याद है कि सीएनएन की प्रभावशीलता पर पछतावा हो रहा है, जो शोध में बाधा बन सकता है। संबंधित पोस्ट


1
मैं विशेष रूप से अंतिम पैराग्राफ पसंद करता हूं।
राजेश दचिराजू

10
क्या आपके पास बिंदु # 2 के लिए एक प्रशस्ति पत्र है?
DrMcCleod

@DrMcCleod: टू प्वाइंट प्वाइंट टू जिंगोइज़्म की तरह दिखता है। बस हल्के अंदाज़ में।
राजेश दचिराजू

6
@DrMcCleod में बहुत सारे काम हैं जो बताते हैं कि स्थानीय मिनीमा वैश्विक minima के बहुत करीब हैं और इसके बजाय यह काठी अंक हैं। इस पेपर को काठी बिंदुओं की चर्चा के लिए देखें और स्थानीय मिनिमा जरूरी नहीं हैं, इस पेपर के लिए।
jld

1
मैं केवल एक थिएटर को प्राथमिकता दूंगा, मुझे उम्मीद है। लेकिन मुझे लगता है कि मुझे पता है कि मैं किसी भी फिल्म का लगभग उतना ही आनंद लूंगा जितना मैं वास्तव में देखना चाहता हूं। तब मुझे निराशा नहीं होगी जब 10 थिएटर होंगे और मुझे एक यादृच्छिक रूप से चुनना होगा, क्योंकि मुझे पता है कि कोई भी थिएटर और फिल्म आपको संतुष्ट छोड़ देगी।
शिमाओ

14

जैसा कि आपके प्रश्न के लिए टिप्पणियाँ इंगित करती हैं, बहुत सारे लोग हैं जो कुछ बेहतर खोजने पर काम कर रहे हैं। मैं हालांकि @josh द्वारा छोड़ी गई टिप्पणी का विस्तार करके इस प्रश्न का उत्तर देना चाहूंगा


सभी मॉडल गलत हैं लेकिन कुछ उपयोगी हैं (विकी)

उपरोक्त कथन एक सामान्य सत्य है जिसका उपयोग सांख्यिकीय मॉडल की प्रकृति का वर्णन करने के लिए किया जाता है। हमारे पास उपलब्ध डेटा का उपयोग करके, हम ऐसे मॉडल बना सकते हैं जो हमें अनुमानित अनुमानित मूल्य जैसे उपयोगी काम करने दें।

उदाहरण के लिए रैखिक प्रतिगमन ले लो

कई अवलोकनों का उपयोग करते हुए, हम एक मॉडल को फिट कर सकते हैं, जो हमें स्वतंत्र चर (ओं) के लिए किसी भी मूल्य पर निर्भर आश्रित चर के लिए अनुमानित मूल्य दे सकता है।

बर्नहैम, केपी; एंडरसन, डीआर (2002), मॉडल चयन और मल्टीमॉडल> ​​आविष्कार: एक व्यावहारिक सूचना-सैद्धांतिक स्वीकृति (दूसरा संस्करण):।

"एक मॉडल वास्तविकता का एक सरलीकरण या अनुमान है और इसलिए वास्तविकता के सभी को प्रतिबिंबित नहीं करेगा ... बॉक्स ने कहा कि" सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं। "जबकि एक मॉडल कभी भी" सत्य "नहीं हो सकता है, एक मॉडल हो सकता है। बहुत उपयोगी से उपयोगी होने के लिए, कुछ हद तक उपयोगी है, आखिरकार, अनिवार्य रूप से बेकार।

हमारे मॉडल से विचलन (जैसा कि ऊपर की छवि में देखा जा सकता है) यादृच्छिक दिखाई देते हैं, कुछ अवलोकन पंक्ति के नीचे हैं और कुछ ऊपर हैं, लेकिन हमारी प्रतिगमन रेखा एक सामान्य सहसंबंध दिखाती है। जब तक हमारे मॉडल में विचलन यादृच्छिक रूप से प्रकट होते हैं, यथार्थवादी परिदृश्यों में खेलने के अन्य कारक होंगे जो इस विचलन का कारण बनते हैं। उदाहरण के लिए, कारों को देखने की कल्पना करें क्योंकि वे एक जंक्शन से गुजरती हैं जहां उन्हें आगे बढ़ने के लिए बाएं या दाएं मुड़ना चाहिए, कारें किसी विशेष पैटर्न में नहीं मुड़ती हैं। जब तक हम कह सकते हैं कि कारों की दिशा पूरी तरह से यादृच्छिक है, तो क्या प्रत्येक चालक जंक्शन पर पहुंचता है और उस बिंदु पर एक यादृच्छिक निर्णय करता है कि किस तरह से मोड़ना है? वास्तव में वे शायद एक विशिष्ट कारण के लिए कहीं विशिष्ट हो रहे हैं, और प्रत्येक कार को उनके तर्क के बारे में पूछने के लिए रोकने के प्रयास के बिना, हम केवल उनके कार्यों को यादृच्छिक रूप में वर्णित कर सकते हैं।

जहां हम एक मॉडल को न्यूनतम विचलन के साथ फिट करने में सक्षम हैं, हम कितने निश्चित हो सकते हैं कि कुछ बिंदु पर एक अज्ञात, किसी का ध्यान नहीं या अस्थिर चर हमारे मॉडल को फेंक दें? क्या ब्राजील में एक तितली के पंखों का फ्लैप टेक्सास में एक बवंडर को स्थापित करता है?

रैखिक और एसवीएन मॉडल का उपयोग करने के साथ समस्या यह है कि आप अकेले उल्लेख करते हैं कि हमें अपने चर का मैन्युअल रूप से निरीक्षण करने की आवश्यकता है और वे एक दूसरे को कैसे प्रभावित करते हैं। फिर हमें यह तय करने की आवश्यकता है कि चर क्या महत्वपूर्ण हैं और एक कार्य-विशिष्ट एल्गोरिदम लिखते हैं। यह सीधे आगे हो सकता है यदि हमारे पास केवल कुछ चर हैं, लेकिन क्या होगा यदि हमारे पास हजारों थे? क्या होगा अगर हम एक सामान्यीकृत छवि मान्यता मॉडल बनाना चाहते हैं, तो क्या इस दृष्टिकोण के साथ वास्तविक रूप से प्राप्त किया जा सकता है?

डीप लर्निंग और आर्टिफिशियल न्यूरल नेटवर्क्स (एएनएन) हमें भारी मात्रा में चर (जैसे छवि पुस्तकालय) वाले विशाल डेटा सेट के लिए उपयोगी मॉडल बनाने में मदद कर सकते हैं। जैसा कि आप उल्लेख करते हैं, समाधानों की एक समझदार संख्या है जो एएनएन का उपयोग करके डेटा को फिट कर सकता है, लेकिन क्या यह संख्या वास्तव में उन समाधानों की मात्रा से भिन्न है जिन्हें हमें परीक्षण और त्रुटि के माध्यम से विकसित करने की आवश्यकता होगी?

एएनएन के आवेदन हमारे लिए बहुत काम करते हैं, हम अपने इनपुट और हमारे वांछित आउटपुट निर्दिष्ट कर सकते हैं (और उन्हें सुधार करने के लिए बाद में ट्वीक करें) और समाधान का पता लगाने के लिए इसे एएनएन तक छोड़ दें। यही कारण है कि ANN को अक्सर "ब्लैक बॉक्स" के रूप में वर्णित किया जाता है । दिए गए इनपुट से वे एक सन्निकटन का उत्पादन करते हैं, हालांकि (सामान्य शब्दों में) इन सन्निकटन में विवरण शामिल नहीं है कि वे कैसे अनुमानित थे।

और इसलिए यह वास्तव में नीचे आता है कि आप किस समस्या को हल करने की कोशिश कर रहे हैं, क्योंकि समस्या यह बताएगी कि कौन सा मॉडल दृष्टिकोण अधिक उपयोगी है। मॉडल बिल्कुल सटीक नहीं होते हैं और इसलिए हमेशा 'गलत' होने का एक तत्व होता है, हालांकि आपके परिणाम जितने सटीक होते हैं उतने ही उपयोगी होते हैं। परिणामों में अधिक विवरण होने पर कि कैसे सन्निकटन बनाया गया था, उपयोगी भी हो सकता है, समस्या के आधार पर यह बढ़ी हुई सटीकता से भी अधिक उपयोगी हो सकता है।

यदि उदाहरण के लिए आप एक व्यक्ति क्रेडिट स्कोर की गणना कर रहे हैं, तो प्रतिगमन और एसवीएम का उपयोग करके गणना प्रदान करता है जिसे बेहतर तरीके से खोजा जा सकता है। दोनों को मॉडल को सीधे ट्विस्ट करने और ग्राहकों को समझाने में सक्षम होने के नाते अलग-अलग स्वतंत्र चर का उनके समग्र स्कोर पर प्रभाव बहुत उपयोगी है। एक ANN अधिक सटीक स्कोर प्राप्त करने के लिए बड़ी मात्रा में चर प्रसंस्करण में सहायता कर सकता है, लेकिन क्या यह सटीकता अधिक उपयोगी होगी?


6
आप कुछ अच्छे बिंदु बनाते हैं, लेकिन यह तथ्य कि "कई मामलों में हमारी टिप्पणियों और भविष्यवाणियां फिट लाइन पर नहीं बैठेंगी" "सभी मॉडल गलत हैं" नारा का एक उपयुक्त प्रदर्शन नहीं है। रैखिक प्रतिगमन में हम E (Y | X) मॉडलिंग कर रहे हैं और इस तरह से अंक लाइन पर बिल्कुल नहीं पड़े हैं, जो हमारे मॉडल में कमी को प्रदर्शित नहीं करता है। यादृच्छिकता निर्धारित और अपेक्षित है; जब हम फिट लाइन से विचलन देखते हैं तो मॉडल "गलत" नहीं है।
klumbard

@klumbard टिप्पणी के लिए धन्यवाद। मैंने अपने उत्तर को अधिक विस्तार के साथ अपडेट किया है जो एक उदाहरण के रूप में इसका उपयोग करने के पीछे मेरे तर्क को बताता है। मैंने अपने उत्तर में एक अधिक दार्शनिक दृष्टिकोण अपनाया और बारीकियों के बजाय अधिक सामान्य शब्दों में बात की, इस समुदाय में यह मेरी पहली पोस्ट है इसलिए माफी मांगता है अगर ऐसा करने का स्थान नहीं है। आपको बारीकियों के बारे में जानकार लगता है, क्या आप अपनी टिप्पणी पर थोड़ा और विस्तार कर सकते हैं? मेरे पास सवाल यह है कि जहां विचलन कमी को प्रदर्शित नहीं करते हैं, क्या 0.01 के आर-स्क्वेर के साथ एक प्रतिगमन मॉडल भी "गलत" नहीं है?
कार्सिव

2
आपकी पोस्ट के साथ मेरा एकमात्र मुद्दा यह है कि जिस तरह से आप वाक्यांश "... कई मामलों में हमारी टिप्पणियों और भविष्यवाणियों को फिट लाइन पर नहीं बैठेंगे। यह एक तरीका है जिसमें हमारा मॉडल अक्सर 'गलत' होता है ..." । मैं बस यह कह रहा हूं कि मॉडल के विनिर्देश में एक त्रुटि शब्द शामिल है और इसलिए तथ्य (अकेले) कि मनाया गया डेटा फिट लाइन पर नहीं पड़ता है, मॉडल "गलतता" का संकेत नहीं देता है। यह एक सूक्ष्म शब्दार्थ भेद जैसा प्रतीत हो सकता है, लेकिन मुझे लगता है कि यह महत्वपूर्ण है
klumbard

1
मुख्य बिंदु, जिसे आप संबोधित करते हैं, यह है कि सभी मॉडल गलत चर पूर्वाग्रह के साथ-साथ कार्यात्मक रूप की गलत वर्तनी के कारण गलत हैं। हर बार जब आप एक प्रतिगमन मॉडल लिखते हैं और अनुमानों पर निष्कर्ष निकालते हैं, तो आप मान रहे हैं कि आपने मॉडल को सही ढंग से निर्दिष्ट किया है, जो कभी नहीं होता है।
klumbard

1
@क्लबर्ड ओह मैं देख सकता हूं कि आप अभी कहां से आ रहे हैं। इसलिए हालांकि मॉडल अनुमानों का उत्पादन करता है जो पूरी तरह से सटीक होने की संभावना नहीं है, हम त्रुटि शब्द को यह बता सकते हैं कि वास्तविक मूल्य अनुमानों से कितना भिन्न हो सकते हैं, और इस प्रकार यह कहना गलत होगा कि मॉडल स्वाभाविक रूप से गलत है। मैं उस उत्तर को अपने उत्तर से बाहर ले जाऊंगा, मुझे लगता है कि इसके बाद मैंने जो हिस्सा जोड़ा है उसमें मेरी बात को बेहतर तरीके से समझाया गया है। समझाने के लिए धन्यवाद :)
Carrosive

8

वैश्विक न्यूनतम के रूप में अच्छी तरह से बेकार हो सकता है, तो हम वास्तव में परवाह नहीं है अगर हम इसे पाते हैं या नहीं। इसका कारण है, गहरे नेटवर्क के लिए, न केवल इसे खोजने का समय तेजी से लंबा होता जाता है, क्योंकि नेटवर्क का आकार बढ़ता जाता है, बल्कि वैश्विक न्यूनतम भी अक्सर प्रशिक्षण सेट से आगे निकल जाता है। इस प्रकार DNN की सामान्यीकरण क्षमता (जो कि हम वास्तव में परवाह करते हैं) को भुगतना होगा। इसके अलावा, अक्सर हम नुकसान फ़ंक्शन के उच्च मूल्य के अनुरूप चापलूसी मनिमा को पसंद करते हैं, शार्प मनिमा को नुकसान फ़ंक्शन के कम मूल्य के अनुरूप, क्योंकि दूसरा इनपुट में अनिश्चितता के साथ बहुत खराब व्यवहार करेगा। यह बायेसियन डीप लर्निंग के विकास के साथ तेजी से स्पष्ट हो रहा है। रोबस्ट ऑप्टिमाइज़ेशन बहुत बार वास्तविक दुनिया की समस्याओं पर लागू होता है, जहां अनिश्चितता महत्वपूर्ण है, निर्धारक ऑप्टिमाइज़ेशन धड़कता है।

अंत में, यह एक तथ्य है कि DNNs केवल छवि वर्गीकरण और एनएलपी में XGBoost जैसे तरीकों के गधे को मारते हैं। एक कंपनी जिसे छवि वर्गीकरण से लाभ कमाना चाहिए, उसे सही ढंग से उत्पादन में तैनात किए जाने वाले मॉडल के रूप में चुनेंगी ( और फीचर इंजीनियरिंग, डेटा पाइपलाइन आदि पर एक महत्वपूर्ण राशि का निवेश करें, लेकिन मैं खोदती हूं)। इसका मतलब यह नहीं है कि वे सभी एमएल वातावरण पर हावी हैं: उदाहरण के लिए, वे संरचित डेटा पर एक्सजीबोस्ट से भी बदतर काम करते हैं (कागले प्रतियोगिताओं के अंतिम विजेताओं को देखें) और वे समय श्रृंखला मॉडलिंग पर अभी भी कण फिल्टर के रूप में नहीं करते हैं। हालाँकि, आरएनएन पर कुछ हालिया नवाचार इस स्थिति को संशोधित कर सकते हैं।


2
वास्तव में? एक पतन? यह थोड़ा अनसुना है। यह उचित उत्तर (+1) है।
us --r11852 का कहना है कि

5
@RajeshDachiraju चूंकि आप स्पष्ट रूप से यह जानने की कोशिश कर रहे हैं कि मुझे क्या पता होगा या क्या नहीं होगा, तो आप शायद यह जानने में दिलचस्पी लेंगे कि तंत्रिका नेटवर्क और गैर-उत्तल अनुकूलन के बारे में अधिक समझ वाले लोग जो आपको लगते हैं, नियमित रूप से बात करते हैं तंत्रिका नेटवर्क के लिए एक एकल वैश्विक न्यूनतम। इस शब्दावली का उपयोग करने वाले पत्रों के विशाल ढेर के बीच, आप इसे पढ़ने की कोशिश कर सकते हैं और देख सकते हैं कि क्या आप समझते हैं कि आप कहां गलत हैं।
डेल्टा ४

2
@ राजेशचचिराजू: आपके तर्क को समझाने के लिए धन्यवाद, बहुत से लोग परेशान नहीं होंगे। यह कहा जा रहा है, मुझे लगता है कि इसके लिए आपका तर्क त्रुटिपूर्ण है और एक बहुत ही विशेष वाक्यांश के गलत अर्थ से उपजा है। मैं DeltaIV से सहमत हूं कि यह मानक शब्दावली है।
us --r11852 का कहना है कि

1
@ डेल्टिव: मेरा कहना है कि, कई वेट वैक्टर हो सकते हैं जिनके प्रशिक्षण डेटा पर 0 नुकसान होता है (आर्किटेक्चर को स्थिर रखते हुए)। प्रशिक्षण का पूरा बिंदु वेट वेक्टर इंस्टेंस प्राप्त करना है? इसलिए मैं आपसे असहमत हूं। इनमें से एक वेट वैक्टर बेहद उपयोगी है। लेकिन मैं अनुरोध करता हूं कि वह इस बातचीत से असहमत हैं और इस बातचीत को समाप्त कर सकते हैं। सादर राजेश
राजेश दचिराजू 12

1

7

मुझे लगता है कि इस प्रश्न के बारे में सोचने का सबसे अच्छा तरीका प्रतिस्पर्धी बाजार स्थान है। यदि आप गहरी सीख लेते हैं, और आपके प्रतियोगी इसका उपयोग करते हैं, और यह आपके द्वारा उपयोग किए जाने वाले काम से बेहतर काम करता है, तो आपको बाजार में जगह मिलेगी।

मुझे लगता है कि जो कुछ हो रहा है, वह आज के समय में, यानी गहन सीखने से लगता है कि बाजार की सारी समस्याओं के लिए कुछ भी बेहतर है। उदाहरण के लिए, गहरी सीखने का उपयोग करने वाले ऑनलाइन भाषा अनुवादक विशुद्ध रूप से भाषाई दृष्टिकोण से बेहतर हैं जो पहले इस्तेमाल किए गए थे। कुछ साल पहले यह मामला नहीं था, लेकिन गहन शिक्षा में प्रगति ने उन लोगों को लाया जो बाजार पर नेतृत्व के पदों के लिए इस्तेमाल करते थे।

मैं "बाजार" दोहराता रहता हूं क्योंकि यही वह है जो गहरी शिक्षा में वर्तमान उछाल को बढ़ा रहा है। पल व्यापार कुछ उपयोगी पाता है, कि कुछ व्यापक प्रसार हो जाएगा। ऐसा नहीं है कि हम , समिति, ने तय किया कि गहरी शिक्षा लोकप्रिय होनी चाहिए। यह व्यवसाय और प्रतिस्पर्धा है।

दूसरा भाग, यह है कि एमएल की वास्तविक सफलता के अलावा, नाव को याद करने का भी डर है। बहुत सारे व्यवसाय पागल हैं कि यदि वे एआई को याद करते हैं, तो वे व्यवसायों के रूप में विफल हो जाएंगे। यह डर इन सभी परामर्श घरों, गार्टर्स आदि द्वारा, सीईओ को फुसफुसाकर दिया जा रहा है कि उन्हें कल एआई या मरना होगा।

गहरी शिक्षा का उपयोग करने के लिए किसी को मजबूर करने वाले व्यवसाय नहीं। IT और R & D एक नए खिलौने से उत्साहित हैं। एकेडेमीया की चीयरिंग, इसलिए इस पार्टी का अंत तब तक होता है जब तक संगीत बंद नहीं हो जाता है, यानी जब तक गहरी सीख देना बंद नहीं हो जाता। इस बीच आप इसे डंप कर सकते हैं और बेहतर समाधान के साथ आ सकते हैं।


शैक्षिक अनुसंधान के वित्तपोषण के बारे में क्या? क्या आप कृपया इस पर कुछ प्रकाश डाल सकते हैं?
राजेश दचिराजू

2
इंडस्ट्री से बहुत फंडिंग आती है। जिन प्रोफेसरों को उद्योग से सबसे अधिक पैसा मिलता है, वे वही हैं जो अकादमिक क्षेत्र में सबसे प्रभावशाली हैं। विश्वविद्यालयों को पैसे का एक बड़ा हिस्सा मिलता है जो उन्हें फर्मों से मिलता है, इसलिए वे इन प्रोफेसरों से प्यार करते हैं। यदि आप इस NYT लेख को पढ़ते हैं , तो आप शिक्षा और उद्योग दोनों में उन्माद का अंदाजा लगा सकते हैं
अक्कल

बाजार के लिए बहुत अच्छा संदर्भ (+1): मैंने वही कहा ("एक कंपनी जिसे छवि वर्गीकरण से लाभ अर्जित करना चाहिए, वह सही ढंग से उन्हें मॉडल के रूप में चयन करेगी जिसे उत्पादन में तैनात किया जाना है")। हालाँकि, मैं हल्के से व्यामोह पर असहमत हूँ। यह एक तथ्य (व्यामोह नहीं) है कि वेस्मो टेस्ला, ऑडी और एक अन्य कार निर्माता को हरा देने के लिए तैयार है, जिसका नाम मैं अब याद नहीं कर सकता, और यह दीप लर्निंग में Google के भारी निवेश के कारण है। ऑडी निश्चित रूप से SIFT और SURF (अच्छी तरह से परीक्षण की गई कंप्यूटर विज़न तकनीकों का उपयोग कर सकते हैं, जो किसी भी तरह से डीप लर्निंग से संबंधित नहीं हैं), अगर वे ...
DeltaIV

...चाहता था। SIFT, SURF और अन्य ज्यामिति-आधारित पद्धतियों के संबंध में DL की श्रेष्ठता, जब छवि वर्गीकरण की बात आती है, तो यह पांच साल के ठोस शैक्षणिक और औद्योगिक अनुसंधान से जुड़ा तथ्य है। यह निश्चित रूप से रामबाण नहीं है (आईबीएम वॉटसन की विफलताओं को देखें), और कुछ प्रचार है, लेकिन कठिन, ठंडे तथ्य भी हैं।
डेल्टाआईवी

2
@ डेल्टिव एमएल कुछ अनुप्रयोगों में निश्चित रूप से काम करता है, लेकिन मुझे लगता है कि आज का व्यापक प्रसार इसे व्यामोह और बड़े पैमाने पर प्रचार के कारण है। यह काम कर रहा है या नहीं सीटीओ सिर्फ इसके लिए जा रहे हैं। मैं दोस्तों को जो पता नहीं मैं क्या सिर्फ एक साल पहले बात कर रहा था था है, अब वे कहते हैं कि ऐ भविष्य है, वे कार्यान्वयन आदि शुरू करने के लिए जा रहे हैं
Aksakal

4

उत्कृष्ट उत्तर हैं, ज्यादातर डीएल और एएनएन की उपयोगिता के साथ वजन करते हैं। लेकिन मैं ओपी को अधिक मौलिक तरीके से आपत्ति करना चाहूंगा, क्योंकि प्रश्न पहले से ही तंत्रिका नेटवर्क के गणितीय असंगति को स्वीकार करता है।

सबसे पहले, वहाँ है के पीछे एक गणितीय सिद्धांत (के सबसे मॉडल) तंत्रिका नेटवर्क। आप वैसे ही तर्क दे सकते हैं कि रैखिक प्रतिगमन सामान्यीकरण नहीं करता है, जब तक कि अंतर्निहित मॉडल नहीं है ... अच्छी तरह से, रैखिक। तंत्रिका एल्गोरिदम में, एक मॉडल मान लिया जाता है (भले ही स्पष्ट रूप से नहीं) और फिटिंग त्रुटि की गणना की जाती है। यह तथ्य कि एल्गोरिदम को विभिन्न अनुमानों के साथ संशोधित किया गया है, मूल गणितीय समर्थन को शून्य नहीं करता है। BTW, स्थानीय अनुकूलन भी एक गणितीय रूप से सुसंगत है, अकेले उपयोगी, सिद्धांत।

इस पंक्ति के साथ, अगर न्यूरल नेटवर्क वैज्ञानिकों के पूरे टूलबॉक्स के भीतर सिर्फ एक वर्ग की विधि का गठन करता है, जो कि वह लाइन है जो न्यूरल नेटवर्क को बाकी तकनीकों से अलग करती है? वास्तव में, SVM को कभी NN का वर्ग माना जाता था और वे अब भी उसी पुस्तकों में दिखाई देते हैं। दूसरी ओर, NNs को एक (अरेखीय) प्रतिगमन तकनीक माना जा सकता है, शायद कुछ सरलीकरण के साथ। मैं ओपी से सहमत हूं कि हमें बेहतर, अच्छी तरह से स्थापित, कुशल एल्गोरिदम की खोज करनी चाहिए, भले ही आप उन्हें एनएन के रूप में लेबल करें या नहीं।


असंगत होने के साथ समस्या यह है कि, कोई सरल प्रश्न नहीं पूछ सकता है, जैसे कि किसी को प्रशिक्षण कब रोकना चाहिए? इसके अलावा बहुत सी अफवाहें, जैसे 'ड्रॉपोट', 'वेट डिके', 'रेलु' और विभिन्न एक्टिविटीज, बैच नॉर्मलाइजेशन, मैक्स पूलिंग, सॉफ्टमैक्स, अर्ली स्टॉपिंग, विभिन्न लर्निंग रेट शेड्यूल और इन सभी के परमीशन और कॉम्बिनेशन से डिजाइनर हमेशा संशय में रहते हैं। कुछ बिंदु पर छोड़ना है या नहीं।
राजेश Dachiraju

1
@RajeshDachiraju बाहरी बिंदु अनुकूलन एल्गोरिदम में दंड गुणांक या रन-कुट्टा विधियों में चरण आकार के बारे में भी यही कहा जा सकता है। "असंगत" शब्द का विज्ञान में सटीक अर्थ है जो यहां लागू नहीं होता है।
मिगेल

0

मुझे लगता है कि कुछ समस्याएँ हम गणितीय कठोरता और सरलता के लिए कम करते हैं लेकिन इसकी उपयोगिता के लिए अधिक, वर्तमान स्थिति तंत्रिका नेटवर्क है जो छवि प्रसंस्करण में पैटर्न मान्यता जैसे कुछ कार्य करने में बेहतर है।


0

इस सवाल में बहुत कुछ है। जो आपने एक-एक करके लिखा है, उस पर चलें।

प्रशिक्षण डेटा फिट करने वाले समाधान अनंत हैं। हमारे पास सटीक गणितीय समीकरण नहीं है जो केवल एक ही द्वारा संतुष्ट हो और हम कह सकते हैं कि सामान्यीकरण सर्वोत्तम है।

यह तथ्य कि अनंत कई समाधान हैं, सीखने की समस्या एक बीमार समस्या है, इसलिए ऐसा कोई भी नहीं हो सकता है जो सामान्य रूप से सबसे अच्छा हो। इसके अलावा, कोई मुफ्त लंच प्रमेय जो भी विधि हम उपयोग करते हैं, वह गारंटी नहीं दे सकता है कि यह सभी सीखने की समस्याओं में सबसे अच्छा है।

सीधे शब्दों में कहें तो हम नहीं जानते कि कौन सा सबसे अच्छा है।

यह कथन वास्तव में सत्य नहीं है। वाप्निक एंड चर्वोनेंकिस द्वारा अनुभवजन्य जोखिम कम करने के सिद्धांत हैं जो नमूनों की संख्या, सीखने की विधि के वीसी आयाम और सामान्यीकरण त्रुटि को जोड़ते हैं। ध्यान दें, कि यह केवल दिए गए डेटासेट के लिए लागू होता है। इसलिए एक डाटासेट और एक सीखने की प्रक्रिया को देखते हुए हम सामान्यीकरण पर सीमाएं जानते हैं। ध्यान दें कि, अलग-अलग डेटासेट के लिए कोई मुफ्त लंच प्रमेय नहीं होने के कारण कोई भी सर्वश्रेष्ठ सीखने की प्रक्रिया नहीं हो सकती है।

वजन का अनुकूलन एक उत्तल समस्या नहीं है, इसलिए हम कभी नहीं जानते कि हम एक वैश्विक या स्थानीय न्यूनतम के साथ समाप्त होते हैं। तो क्यों न केवल तंत्रिका नेटवर्क को डंप करें और इसके बजाय एक बेहतर एमएल मॉडल की खोज करें?

यहाँ कुछ चीजें हैं जिन्हें आपको ध्यान में रखना आवश्यक है। गैर-उत्तल समस्या का अनुकूलन करना उत्तल एक के रूप में आसान नहीं है; यह सच है। हालांकि, सीखने के तरीकों की श्रेणी जो उत्तल है, सीमित है (रैखिक प्रतिगमन, एसवीएम) और व्यवहार में, वे विभिन्न प्रकार की समस्याओं पर गैर-उत्तल (बूस्टिंग, सीएनएन) की कक्षा से भी बदतर प्रदर्शन करते हैं। तो महत्वपूर्ण हिस्सा यह है कि व्यवहार में तंत्रिका जाल सबसे अच्छा काम करते हैं। हालांकि कई महत्वपूर्ण तत्व हैं जो तंत्रिका जाल को अच्छी तरह से काम करते हैं:

  1. स्टोकेस्टिक क्रमिक वंश के कारण उन्हें बहुत बड़े डेटासेट पर लागू किया जा सकता है।
  2. एसवीएम के विपरीत, गहरे जाल के साथ अंतःक्षेपी डेटासेट पर निर्भर नहीं करता है। यह परीक्षण के समय में तंत्रिका जाल को कुशल बनाता है।
  3. तंत्रिका जाल के साथ केवल उनकी सीखने की क्षमता (मापदंडों की संख्या के बारे में सोचना) को अधिक परतों को जोड़कर या उन्हें बड़ा करके सीधे नियंत्रित करना संभव है। यह महत्वपूर्ण है क्योंकि विभिन्न डेटासेट आप बड़े या छोटे मॉडल चाहते हैं।

कुछ ऐसा जो हम समझते हैं, और कुछ ऐसा जो गणितीय समीकरणों के एक सेट के अनुरूप है? रैखिक और एसवीएम में यह गणितीय कमियां नहीं हैं और यह पूरी तरह से गणितीय समीकरणों के सेट के अनुरूप हैं। क्यों न केवल उसी तर्ज पर सोचा जाए (हालांकि रेखीय होने की आवश्यकता नहीं है) और रैखिक और एसवीएम और तंत्रिका नेटवर्क और गहन सीखने की तुलना में बेहतर एक नए एमएल मॉडल के साथ आते हैं?

उन चीजों को डंप करना जो उन्हें नहीं समझने के कारण काम करते हैं, एक महान अनुसंधान दिशा नहीं है। उन्हें समझने में एक प्रयास करना, दूसरी ओर, महान अनुसंधान दिशा है। इसके अलावा, मैं असहमत हूं कि तंत्रिका नेटवर्क गणितीय समीकरणों के साथ असंगत हैं। वे काफी सुसंगत हैं। हम जानते हैं कि उन्हें कैसे अनुकूलित किया जा सकता है और किस तरह का अनुमान लगाया जा सकता है।


-2

प्रायोगिक दृष्टिकोण से तंत्रिका नेटवर्क को देखने के बारे में कैसे? सिर्फ इसलिए कि हमने उन्हें बनाया है इसका मतलब यह नहीं है कि हम उन्हें सहज रूप से समझने के लिए बाध्य हैं। या यह कि हमें उनके साथ खेलने की अनुमति नहीं है ताकि वे जो कुछ कर रहे हैं उसका बेहतर प्रदर्शन कर सकें।

यहाँ उन पर मेरे कुछ विचार हैं:

  • संरचना: वे पदानुक्रम हैं। वे पेड़ों की तरह हैं जो आदानों को साझा करते हैं। जड़ें इनपुट हैं और लीफ़ आउटपुट परत हैं। करीब परत आउटपुट के लिए है, जितना अधिक प्रासंगिक यह उनके लिए है, अमूर्तता का अधिक से अधिक स्तर इसमें शामिल है (यह पिक्सेल की तुलना में चित्र के बारे में अधिक है)।
  • कार्यक्षमता: वे डेटा के साथ "खेल" करते हैं, मोडस ऑपरेंडी को न्यूरॉन्स (वजन) में संबंधों के साथ प्रयोग करना है जब तक कि चीजें "क्लिक" (त्रुटि मार्जिन स्वीकार्य नहीं है)।

यह संगत है कि हम कैसे सोचते हैं। यह इस बात के अनुरूप भी है कि वैज्ञानिक पद्धति कैसे संचालित होती है। तो तंत्रिका नेटवर्क को क्रैक करके हम सामान्य प्रश्न को हल कर सकते हैं जो ज्ञान का प्रतिनिधित्व करता है।


-3

मत भूलो, अनुसंधान का एक विशाल क्षेत्र है जो LMs, GLM, बहुस्तरीय मॉडलिंग का उपयोग करता है। हाल ही में बायेसियन तकनीक और हैमिल्टनियन मोंटे कार्लो (एसटीएएन समुदाय वास्तव में इस मामले में सबसे आगे है) उम्र की एक समस्या है और कई समस्याएं हैं जो एसटीएएन द्वारा हल की जाती हैं। वास्तव में आसानी से और वास्तव में NNS या गहरे जाल जरूरत नहीं है। सामाजिक विज्ञान अनुसंधान, सूक्ष्मअर्थशास्त्र ऐसे क्षेत्रों के दो (बड़े) उदाहरण हैं जो तेजी से स्टेन को अपना रहे हैं।

स्टेन मॉडल बहुत "पठनीय" हैं। गुणांक वास्तव में एक पश्च वितरणीय व्याख्या है और इसलिए भविष्यवाणियां करते हैं। पुजारी डेटा जनरेट करने की प्रक्रिया का हिस्सा हैं और प्रदर्शन करने वाले (जैसे गिब्स) होने के लिए संयुग्म होने की आवश्यकता नहीं है। स्टेन में मॉडल फिटिंग एक खुशी है, यह वास्तव में pesky MCMC params स्वचालित रूप से बहुत अच्छी तरह से धुन करता है और जब वास्तव में अच्छा दृश्य के साथ अन्वेषण अटक जाता है आपको चेतावनी देता है।

यदि आपने कोशिश नहीं की है तो पहले से ही यहाँ भयानक स्टेन डेमो देखें )।

दिन के अंत में मुझे लगता है कि लोग इस सामान के बारे में बात नहीं करते हैं क्योंकि इस क्षेत्र में शोध और समस्याएं इतनी "सेक्सी" / "शांत" नहीं हैं जितनी कि एनएन के साथ।


-5

आम तौर पर तब होता है जब कोई गणितीय स्थिरता नहीं होती है (तंत्रिका नेटवर्क के इस मामले में कम से कम) ... जब इसके वांछित परिणाम नहीं दे रहे हैं, तो परीक्षण सेट पर, आपका बॉस वापस आ जाएगा और कहेगा ... अरे आप क्यों नहीं बाहर छोड़ने की कोशिश करें (जो वजन, कौन सी परत, आपके सिर में कितनी है, यह निर्धारित करने का गणितीय तरीका नहीं है), इसलिए जब आप कोशिश करते हैं और उम्मीद है कि मामूली सुधार हुआ है, लेकिन वांछित नहीं है, तो आपका बॉस वापस आ जाएगा और कहेगा, क्यों वजन घटाने की कोशिश नहीं (क्या कारक?) और बाद में, आप कुछ परतों पर ReLU या कुछ अन्य सक्रियण का प्रयास क्यों नहीं करते, और फिर भी, 'अधिकतम पूलिंग' का प्रयास क्यों नहीं करते? अभी भी नहीं, क्यों नहीं बैच सामान्यीकरण की कोशिश, अभी भी नहीं, या कम से कम अभिसरण, लेकिन वांछित परिणाम नहीं, ओह आप एक स्थानीय न्यूनतम में हैं, अलग-अलग सीखने की दर अनुसूची का प्रयास करें, बस नेटवर्क आर्किटेक्चर को बदलें? और विभिन्न संयोजनों में उपरोक्त सभी दोहराएं! जब तक आप सफल नहीं हो जाते तब तक इसे एक लूप में रखें!

दूसरी ओर, जब आप अभिसरण के बाद लगातार एसवीएम की कोशिश करते हैं, अगर परिणाम अच्छा नहीं होता है, तो ठीक है, हम जिस रैखिक कर्नेल का उपयोग कर रहे हैं वह पर्याप्त नहीं है क्योंकि डेटा रैखिक नहीं हो सकता है, एक अलग आकार के कर्नेल का उपयोग करें, कोशिश करें एक अलग आकार की गिरी यदि आपके पास कोई कूबड़ है, अगर अभी भी नहीं है, तो बस इसे छोड़ दें, एसवीएम की एक सीमा।

मैं जो कह रहा हूं वह यह है कि तंत्रिका नेटवर्क इतना असंगत है, कि यह गलत भी नहीं है! यह कभी भी अपनी हार स्वीकार नहीं करता है! इंजीनियर / डिज़ाइनर बोझ उठाता है, अगर यह वांछित के रूप में काम नहीं करता है।


3
यह मुझे अपने प्रश्न का उत्तर देने के लिए प्रतीत नहीं होता है। क्या आपको लगता है कि आप इसे एक शेख़ी की तरह कम ध्वनि के लिए संपादित कर सकते हैं, और यह स्पष्ट कर सकते हैं कि यह किस तरह से बताता है कि तंत्रिका नेटवर्क और गहन शिक्षण एक एमएल मॉडल (जो कि आपका मूल प्रश्न लगता है) की तुलना में अधिक उपयोगी हो सकता है?
सिल्वरफिश

1
उनका कहना है कि एसवीएम के साथ हम जानते हैं कि जब हमने किया है तो हम कर सकते हैं, लेकिन एनएन के साथ हम नहीं जान सकते। यकीनन, यह देखते हुए कि डीएल को मूर्ख बनाया जाता है, यहां तक ​​कि त्रुटि जैसे मेट्रिक्स हमें यह नहीं बताते हैं कि मॉडल वास्तव में कितना अच्छा काम कर रहा है।
yters

1
@yters, हां, लेकिन सिल्वरफ़िश की टिप्पणी थी कि यह डीएल को डंप नहीं करने का जवाब नहीं है। यह सवाल के एक बंधन के करीब है। मेरा सुझाव है कि इसे प्रश्न के साथ विलय कर दें।
P.Windridge
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.