मल्टी-लेयर परसेप्ट्रान बनाम गहरे तंत्रिका नेटवर्क


16

यह शब्दावली का प्रश्न है। कभी-कभी मैं लोगों को गहरे तंत्रिका नेटवर्क को "बहुस्तरीय अवधारणात्मक" के रूप में संदर्भित करता हूं, ऐसा क्यों है? एक अवधारणात्मक, मुझे सिखाया गया था, एक एकल परत क्लासिफायर (या रेजिस्टर) है जो बाइनरी थ्रेशोल्ड आउटपुट के साथ एक विशिष्ट तरीके से वेट प्रशिक्षण (बैक-प्रोप नहीं) का उपयोग करता है। यदि परसेप्ट्रॉन का आउटपुट लक्ष्य आउटपुट से मेल नहीं खाता है, तो हम इनपुट वेक्टर को वेट से जोड़ते या घटाते हैं (यह निर्भर करता है कि क्या परसेप्ट्रान एक गलत पॉज़िटिव या गलत निगेटिव देता है)। यह एक काफी आदिम मशीन लर्निंग एल्गोरिदम है। प्रशिक्षण प्रक्रिया बहु-परत मामले (कम से कम संशोधन के बिना नहीं) के सामान्यीकरण के लिए प्रकट नहीं होती है। एक गहरे तंत्रिका नेटवर्क को बैकप्रॉप के माध्यम से प्रशिक्षित किया जाता है जो नेटवर्क के सभी भारों के माध्यम से लागत फ़ंक्शन के ग्रेडिएंट को फैलाने के लिए चेन नियम का उपयोग करता है।

तो, सवाल है क्या "मल्टी-लेयर परसेप्ट्रॉन" एक "डीप न्यूरल नेटवर्क" की तरह है? यदि हां, तो इस शब्दावली का उपयोग क्यों किया जाता है? यह अनावश्यक रूप से भ्रमित करने वाला लगता है। इसके अलावा, शब्दावली को कुछ हद तक विनिमेय माना जाता है, मैंने केवल "मल्टी-लेयर परसेप्ट्रॉन" शब्दावली को देखा है, जब पूरी तरह से जुड़े परतों (कोई संश्लिष्ट परतें, या आवर्तक कनेक्शन) से बने फ़ीड-फॉरवर्ड नेटवर्क का उल्लेख नहीं किया गया है। यह शब्दावली कितनी व्यापक है? उदाहरण के लिए, इंसेप्शन नेट का उल्लेख करते समय क्या कोई "बहुस्तरीय अवधारणात्मक" शब्द का उपयोग करेगा? एनएलपी में उपयोग किए जाने वाले LSTM मॉड्यूल का उपयोग करते हुए एक आवर्तक नेटवर्क के बारे में कैसे?


1
डीप न्यूरल नेटवर्क = न्यूरल नेटवर्क> 1 छिपी हुई परत के साथ, एमएलपी इस श्रेणी में आता है।
टिम

इसकी सिर्फ रिब्रांडिंग है। MLP 90 के दशक में सम्मलित थे और SVM द्वारा इसे दबा दिया गया था, इसलिए 2000 के दशक में इसे कुछ अलग करने की आवश्यकता थी। सुझाव यह है कि dnn में अधिक परतें हैं, लेकिन इतना बड़ा अंतर नहीं है जैसे Le Net [MLP / CNN] (1998) 2 पूर्णतः 2 जुड़े हुए। एलेक्सनेट = डीएनएन (2012) 5 कंफ्यूजन और 3 पूरी तरह से जुड़ा हुआ है।
seanv507

एसवीएम ग्रेडिएंट एसेंट पर आधारित होते हैं, एएनएन ग्रेडिएंट डीसेंट पर आधारित होते हैं इसलिए वे वास्तव में एएनएन को दबा नहीं पाते हैं। एसवीएम ओवरसोल्ड थे और इसका अत्यधिक उपयोग किया गया था क्योंकि स्नातक छात्रों को एएनएन के बारे में कुछ भी नहीं पता था। एसवीएम चलाने के लिए, छात्रों ने केवल आर पैकेजों को पकड़ा और किया गया। लेकिन एएनएन के लिए, आपको संख्यात्मक तरीकों के नजरिए से समझने के लिए एक पूरे सेमेस्टर की आवश्यकता है - एक व्याख्यात्मक भाषा परिप्रेक्ष्य (यानी, कोड को एक साथ थप्पड़ करना) नहीं।
जोले

जवाबों:


21

बहु-परत पर्सेप्ट्रॉन (MLP) को गहरे तंत्रिका नेटवर्क (DNN) का सबसेट माना जा सकता है, लेकिन अक्सर साहित्य में इसका उपयोग किया जाता है।

उनके शिक्षण नियम के आधार पर धारणाओं का नामकरण गलत है। शास्त्रीय "अवधारणात्मक अद्यतन नियम" उन तरीकों में से एक है जो इसे प्रशिक्षित करने के लिए उपयोग किया जा सकता है। तंत्रिका नेटवर्क की शुरुआती अस्वीकृति इस कारण से बहुत अधिक थी, क्योंकि अवधारणात्मक अद्यतन नियम लुप्त हो गया था और ग्रेडिएंट में विस्फोट हो गया था, जिससे एक परत से अधिक के साथ नेटवर्क को प्रशिक्षित करना असंभव हो गया था।

प्रशिक्षण नेटवर्क में बैक-प्रचार के उपयोग ने वैकल्पिक स्क्वैश सक्रियण कार्यों जैसे कि तन और सिग्मॉइड का उपयोग करने का नेतृत्व किया ।

तो, सवालों के जवाब देने के लिए,

प्रश्न है। क्या "मल्टी-लेयर परसेप्ट्रॉन" एक "डीप न्यूरल नेटवर्क" की तरह है?

MLP DNN का सबसेट है। जबकि DNN में लूप हो सकते हैं और MLP हमेशा फीड-फॉरवर्ड होते हैं, अर्थात

एक मल्टी लेयर परसेप्ट्रॉन (MLP) एक परिमित एसाइक्लिक ग्राफ है

इस शब्दावली का उपयोग क्यों किया जाता है?

विज्ञान के साहित्य में इस्तेमाल की जाने वाली बहुत सारी शब्दावली समय के रुझानों के साथ मिल गई हैं और पकड़ ली है।

यह शब्दावली कितनी व्यापक है? उदाहरण के लिए, इंसेप्शन नेट का उल्लेख करते समय क्या कोई "बहुस्तरीय अवधारणात्मक" शब्द का उपयोग करेगा? एनएलपी में उपयोग किए जाने वाले LSTM मॉड्यूल का उपयोग करते हुए एक आवर्तक नेटवर्क के बारे में कैसे?

इसलिए, हां इंसेप्शन, कनफ्लुएंशनल नेटवर्क, रेसनेट आदि सभी एमएलपी हैं क्योंकि कनेक्शन के बीच कोई चक्र नहीं है। यहां तक ​​कि अगर वहाँ एक शॉर्टकट कनेक्शन लंघन परतें हैं, जब तक कि यह आगे की दिशा में है, तो इसे एक बहुपरत पर्सेप्ट्रॉन कहा जा सकता है। लेकिन, LSTM या वेनिला RNN आदि में चक्रीय कनेक्शन हैं, इसलिए इन्हें MLP नहीं कहा जा सकता है, लेकिन DNN का एक सबसेट है।

यह मेरी चीजों की समझ है। यदि मैं गलत हूं तो मुझे बताएं।

संदर्भ लिंक:

/cs/53521/what-is-difference-between-multilayer-perceptron-and-multilayer-neural-network

https://en.wikipedia.org/wiki/Multilayer_perceptron

https://en.wikipedia.org/wiki/Perceptron

http://ml.informatik.uni-freiburg.de/former/_media/teaching/ss10/05_mlps.printer.pdf


1
बस जिज्ञासा से बाहर: मैंने सोचा था कि रसद प्रतिगमन है प्रतिगमन तकनीक क्योंकि आप कक्षा 1 सदस्यता की संभावना का अनुमान है, वर्ग की सदस्यता के बजाय। जैसा कि यह मुझे एक वर्गीकरण तकनीक नहीं लगती है (शोधकर्ता / विश्लेषक को लॉजिस्टिक रिग्रेशन के आधार पर वर्गीकृत करने के लिए प्रायिकता कट-ऑफ पर निर्णय लेना पड़ता है)।
IWS

@ आप सही हैं। इस साइट पर विभिन्न उपयोगकर्ताओं ने बार-बार यह बात कही है कि लॉजिस्टिक रिग्रेशन एक क्लासिफायर के लिए (सशर्त) प्रायिकता अनुमान के लिए एक मॉडल है। उदाहरण के लिए यहाँ देखें ।
DeltaIV

1
ठीक करने के लिए प्रतिक्रिया का उदाहरण दिया गया है, "लॉजिस्टिक रिग्रेशन" एक वर्गीकरण तकनीक है और इसे बोलने के लिए "प्रतिगमन" नहीं कहा जाना चाहिए । @DeltaIV द्वारा साझा किया गया लिंक यह बहुत स्पष्ट करता है कि यह प्रतिगमन क्यों है और एक क्लासिफायरियर नहीं है।
m1cro1ce

8

अच्छा प्रश्न: ध्यान दें कि डीप लर्निंग के क्षेत्र में चीजें हमेशा उतनी अच्छी तरह से कटी नहीं होती हैं और सांख्यिकीय लर्निंग में भी स्पष्ट रूप से परिभाषित होती हैं (क्योंकि वहाँ बहुत प्रचार है), इसलिए गणित के रूप में कठोर के रूप में परिभाषाएं खोजने की उम्मीद न करें। वैसे भी, मल्टीलेयर परसेप्ट्रान एक विशिष्ट फीड-फ़ॉर न्यूरल नेटवर्क आर्किटेक्चर है, जहाँ आप कई पूर्ण-कनेक्टेड लेयर्स (इसलिए, कोई भी कन्वेक्शन लेयर्स) को ढेर नहीं करते हैं, जहाँ छिपी हुई इकाइयों के सक्रियण कार्य अक्सर एक सिग्मॉइड या टैन्ह होते हैं। आउटपुट परत के नोड्स में आमतौर पर सॉफ्टमैक्स सक्रियण कार्य (वर्गीकरण के लिए) या रैखिक सक्रियण फ़ंक्शन (प्रतिगमन के लिए) होते हैं। विशिष्ट MLP आर्किटेक्चर "गहरे" नहीं हैं, अर्थात, हमारे पास कई छिपी हुई परतें नहीं हैं। आप आमतौर पर कहते हैं, 1 से 5 छिपी हुई परतें। ये तंत्रिका नेटवर्क '80 में आम थे,

अब, डीप न्यूरल नेटवर्क के साथ हमारा मतलब एक नेटवर्क है जिसमें कई लेयर्स हैं (19, 22, 152, ... यहां तक ​​कि > 1200 , हालांकि यह माना जाता है कि यह बहुत ही चरम है)। ध्यान दें कि

  • हमने नेटवर्क की वास्तुकला को निर्दिष्ट नहीं किया है, इसलिए यह फ़ीड-फ़ॉरवर्ड, आवर्तक, आदि हो सकता है।
  • हमने कनेक्शनों की प्रकृति को निर्दिष्ट नहीं किया है, इसलिए हम पूरी तरह से जुड़े हुए परतें, दृढ़ परतें, पुनरावृत्ति आदि कर सकते हैं।
  • "कई" परतें माना जाता है कि कठोर परिभाषा नहीं है।

32×32+32×10=134411,584वजन। यह आज के मानकों से एक घटा हुआ एनएन है। हालाँकि, जब आप इसे बड़े पैमाने पर डेटा सेट पर प्रशिक्षित करने के लिए जाते हैं, तो आप पाते हैं कि अभिसरण दर बहुत कम हो गई है। यह न केवल वजन की बड़ी संख्या के कारण है, बल्कि लुप्त हो रही ढाल की समस्या के लिए है - बैक-प्रसार प्रत्येक परतों में त्रुटियों को गुणा करके नुकसान फ़ंक्शन के ग्रेडिएंट की गणना करता है, और ये छोटी संख्याएं घातीय रूप से छोटी और अधिक परतें बन जाती हैं जो आप जोड़ते हैं। इस प्रकार, त्रुटियां आपके नेटवर्क को बहुत धीरे-धीरे प्रसारित (या प्रचारित) नहीं करती हैं, और ऐसा लगता है कि प्रशिक्षण सेट पर त्रुटि प्रशिक्षण के युगों के साथ कम हो जाती है।

और यह एक छोटा नेटवर्क था - अलेक्सांटे नामक गहरे संवेदी तंत्रिका नेटवर्क में 5 परतें थीं लेकिन 60 मिलियन वज़न थे, और यह आज के मानकों से छोटा माना जाता है! जब आपके पास इतने वजन होते हैं, तो कोई भी डेटा सेट "छोटा" होता है - यहां तक ​​कि इमेजनेट, वर्गीकरण के लिए उपयोग की जाने वाली छवियों का एक डेटा सेट, "केवल" में लगभग 1 मिलियन छवियां होती हैं, इस प्रकार उथले नेटवर्क के मुकाबले ओवरफिटिंग का जोखिम बहुत बड़ा है।

डीप लर्निंग को इस प्रकार समझा जा सकता है कि उपकरणों का एक सेट जो तंत्रिका नेटवर्क को बड़ी संख्या में परतों और भार के साथ प्रशिक्षित करने के लिए उपयोग किया जाता है, कम सामान्यीकरण त्रुटि को प्राप्त करता है। यह कार्य छोटे नेटवर्क की तुलना में अधिक चुनौतियां पेश करता है। आप निश्चित रूप से एक डीप मल्टीलेयर पर्सेप्ट्रॉन का निर्माण कर सकते हैं और इसे प्रशिक्षित कर सकते हैं - लेकिन (इस तथ्य के अलावा कि यह कई कार्यों के लिए इष्टतम आर्किटेक्चर नहीं है जहां आज डीप लर्निंग का उपयोग किया जाता है) आप शायद उन उपकरणों का उपयोग करेंगे जो उपयोग किए जाने वाले नेटवर्क से अलग हैं। "उथले"। उदाहरण के लिए, आप sigmoid या tanh के लिए ReLU सक्रियण इकाई पसंद कर सकते हैं, क्योंकि वे लुप्त हो रही क्रमिक समस्या को नरम करते हैं।


M1cro1ce के पिछले उत्तर में कहा गया है कि एक कन्ट-नेट (इंसेप्शन) को भी MLP के रूप में वर्गीकृत किया जा सकता है, जबकि आप निर्दिष्ट करते हैं कि एक MLP में कंसिस्टेंट लेयर्स नहीं हो सकते हैं (और ऐसा लगता है कि आप सक्रियण कार्यों का विकल्प भी पसंद कर रहे हैं प्रभावित करता है जिसे एमएलपी कहा जा सकता है या नहीं?)। क्या साहित्य में (या एमएल समुदाय के भीतर) सहमति है कि एमएलपी का वास्तव में क्या मतलब है और इसका क्या मतलब नहीं है? अगर किसी ने मुझसे कहा "मैं चाहता हूं कि आप टास्क एक्स के लिए एमएलपी बनाएं" तो मैं क्या करने के लिए प्रतिबंधित हूं?
एनुमारिस

@enumaris आप कुछ भी करने के लिए कानून द्वारा प्रतिबंधित नहीं हैं। पिछली बार जब मैंने जाँच की थी, तब भी सीएनएन का निर्माण करना और उसे एमएलपी कहना कानूनी था। मैं निश्चित रूप से इस तरह के एक पेपर / पोस्टर / जो कुछ भी अस्वीकार करता हूं, लेकिन वह मैं हूं और मैं पूरे डीएल समुदाय के लिए नहीं बोल सकता, जो शब्दावली के अपने सख्त उपयोग के लिए बिल्कुल प्रसिद्ध नहीं है। वैसे भी, मेरी परिभाषा: फीड-फॉरवर्ड न्यूरल नेटवर्क पूरी तरह से कनेक्टेड लेयर के साथ और कम से कम कुछ नॉनलाइनियर ऐक्टिवेशन फंक्शन (अन्यथा, चाहे कितनी भी लेयर्स हों, यह हमेशा सिंगल लेयर लीनियर नेटवर्क के बराबर होता है) वैसा ही है जैसा आप इसमें पा सकते हैं .. ।
डेल्टिवन नोव

... विकिपीडिया । परतों अनुभाग में नोट करें "चूंकि एमएलपी पूरी तरह से जुड़े हुए हैं [..]"। यह सीएनएन को नियमबद्ध करता है। आप इस पुस्तक में एक ही परिभाषा (फीड-फ़ॉरवर्ड, पूरी तरह से कनेक्टेड, कम से कम छिपी परतों में नॉनलाइनियर एक्टिविटी फ़ंक्शंस) पा सकते हैं । सक्रियण कार्यों के संबंध में, मुझे निश्चित रूप से कुछ भी स्पष्ट नहीं लगता है। मैंने सिर्फ इतना कहा कि MLPs में आमतौर पर टैन या सिग्मॉइड सक्रियण कार्य होते हैं, लेकिन यह अनिवार्य नहीं है।
डेल्टाआईवी

मैं इन 2 उत्तरों में से एक को स्वीकृत उत्तर के रूप में चिह्नित करना चाहूंगा, लेकिन चूंकि वे परस्पर विरोधी उत्तर देते हैं, इसलिए मैं जानना चाहता हूं कि कौन सा उत्तर साहित्य में या एमएल समुदाय के बीच पाया जाता है।
एनुमरिस

@ आपके प्रश्न का शीर्षक "मल्टी-लेयर परसेप्ट्रान बनाम डीप न्यूरल नेटवर्क" है, और आप यह पूछते हैं कि a "multi-layer perceptron" the same thing as a "deep neural network": इस प्रश्न का उत्तर मेरे और m1cro1ce के उत्तर दोनों में विस्तार से दिया गया है। अब आप सवाल पूछ रहे हैं "क्या सीएनएन एमएलपी का सबसेट है?" - स्टैक एक्सचेंज साइटों में पोस्ट के लिए एक प्रश्न की नीति होती है ।
डेल्टिव एनवी

0

मुझे लगता है कि मैं कई पदों से पढ़ा है के अनुसार जोड़ना चाहते हैं:

DNN के माध्यम से कई अलग-अलग वास्तुकलाएं हैं जैसे: MLPs (मल्टी-लेयर पर्सेप्ट्रॉन) और CNN (संवेदी तंत्रिका नेटवर्क)। विभिन्न प्रकार की समस्याओं को हल करने के लिए डिज़ाइन किए गए DNN के विभिन्न प्रकार।

एमएलपी एनएन का शास्त्रीय प्रकार है जिसका उपयोग किया जाता है:

  • सारणीबद्ध डेटा-सेट (एक डेटाबेस तालिका में के रूप में स्तंभ प्रारूप में डेटा होता है)।
  • वर्गीकरण / प्रतिगमन, भविष्यवाणी pbs।

एमएलपी बहुत हैं और आम तौर पर पुट से आउटपुट तक दुबला मैपिंग के लिए इस्तेमाल किया जा सकता है।

लेकिन आप अन्य डेटा के लिए आधार रेखा बिंदु के रूप में छवि डेटा जैसे अन्य मॉडल अधिक उपयुक्त हैं, इसकी पुष्टि करने के लिए प्रयास कर सकते हैं।

CNNs ने इमेज डेटा को आउटपुट वेरिएबल में मैप करने के लिए डिज़ाइन किया है। इसका उपयोग इसके लिए किया जाता है:

  • छवि डेटा,
  • वर्गीकरण / प्रतिगमन भविष्यवाणी pbs,

यह डेटा के साथ अच्छी तरह से काम करता है जिसमें स्पेसियल रिश्ते होते हैं

यह पारंपरिक रूप से 2 डी डेटा के लिए उपयोग किया जाता है, लेकिन इसका उपयोग 1 डी डेटा के लिए किया जा सकता है, सीएनएन कुछ 1 डीबीएस पर कला की स्थिति को प्राप्त करता है।

आपको पहले "स्पष्ट रूप से परिभाषित" करना होगा कि आप किस समस्या को हल करने का लक्ष्य रखते हैं (किस तरह के डेटा के साथ काम करना है, वर्गीकरण / प्रतिगमन समस्या ... आदि) यह जानने के लिए कि किस प्रकार की वास्तुकला का उपयोग करना है।

आप उन कड़ियों का उल्लेख कर सकते हैं जो उन अवधारणाओं के बारे में अधिक समझने के लिए मेरे लिए बहुत उपयोगी हैं :)।

आशा है कि यह ऐड उपयोगी होगा: पी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.