यदि तंत्रिका नेटवर्क में प्रत्येक न्यूरॉन मूल रूप से एक लॉजिस्टिक रिग्रेशन फ़ंक्शन है, तो मल्टी लेयर बेहतर क्यों है?


13

मैं कसेरा के डीपएआई कोर्स (वीक 3 वीडियो 1 "न्यूरल नेटवर्क्स ओवरव्यू") और एंड्रयू एनजी के बारे में बता रहा हूं कि तंत्रिका नेटवर्क में प्रत्येक परत सिर्फ एक और लॉजिस्टिक रिग्रेशन है, लेकिन वह यह नहीं समझाता है कि यह किस तरह से बात को और सटीक बनाता है।

तो एक 2 लेयर नेटवर्क में, लॉजिस्टिक को कई बार कैलकुलेट करने से यह अधिक सटीक कैसे हो जाता है?


7
अक्सर एक अच्छा एकल लॉजिस्टिक प्रतिगमन मॉडल फिट करने के लिए, आपको महत्वपूर्ण सुविधा उत्थान करने की आवश्यकता होती है। दो लेयर एनएन आपके लिए उस काम में से कुछ करने का प्रयास कर रहा है।
मैथ्यू ड्र्यू

@msk, क्या आपने अपने लॉजिस्टिक रिग्रेशन को बेहतर बनाने के लिए अपनी मूल विशेषताओं के आधार पर कभी नई सुविधाएँ बनाई हैं? यह छिपी हुई परत है।
रिकार्डो क्रूज़

जवाबों:


10

लॉजिस्टिक एक्टिवेशन फ़ंक्शंस का उपयोग करते समय, यह सच है कि प्रत्येक यूनिट के आउटपुट से संबंधित इनपुट्स लॉजिस्टिक रिग्रेशन के लिए समान हैं। लेकिन, यह वास्तव में लॉजिस्टिक प्रतिगमन प्रदर्शन करने वाली प्रत्येक इकाई के समान नहीं है। अंतर यह है कि, लॉजिस्टिक रिग्रेशन में, वेट और पूर्वाग्रह को ऐसे चुना जाता है कि आउटपुट बेस्ट दिए गए टारगेट वैल्यू (लॉग / क्रॉस-एंट्रोपी लॉस का उपयोग करके) से मेल खाता है। इसके विपरीत, एक तंत्रिका जाल में छिपी हुई इकाइयां अपने आउटपुट को डाउनस्ट्रीम इकाइयों में भेजती हैं। व्यक्तिगत छिपी इकाइयों के लिए मिलान करने के लिए कोई लक्ष्य आउटपुट नहीं है। बल्कि, वज़न और पूर्वाग्रह कुछ उद्देश्य फ़ंक्शन को कम करने के लिए चुना जाता है जो नेटवर्क के अंतिम आउटपुट पर निर्भर करता है।

लॉजिस्टिक रिग्रेशन करने के बजाय, यह प्रत्येक छिपी हुई इकाई के बारे में कुछ फीचर स्पेस में एक समन्वय के रूप में सोचने के लिए अधिक समझदार हो सकता है। इस दृष्टिकोण से, एक छिपी हुई परत का उद्देश्य इसके इनपुट को बदलना है - इनपुट वेक्टर को छिपी हुई परत सक्रियण के वेक्टर में मैप किया जाता है। आप इसे प्रत्येक छिपी इकाई के अनुरूप आयाम के साथ एक फीचर स्पेस में इनपुट मैपिंग के रूप में सोच सकते हैं।

आउटपुट परत को अक्सर एक मानक शिक्षण एल्गोरिथ्म के रूप में सोचा जा सकता है जो इस सुविधा स्थान में संचालित होता है। उदाहरण के लिए, एक वर्गीकरण कार्य में, क्रॉस एन्ट्रॉपी लॉस के साथ लॉजिस्टिक आउटपुट यूनिट का उपयोग फीचर स्पेस में लॉजिस्टिक रिग्रेशन (या सॉफ्टमैक्स आउटपुट का उपयोग करते हुए मल्टीमोनियल लॉजिस्टिक रिग्रेशन) करने के बराबर है। एक प्रतिगमन कार्य में, वर्ग त्रुटि के साथ एक रेखीय आउटपुट का उपयोग करना फीचर स्पेस में कम से कम वर्ग रैखिक प्रतिगमन प्रदर्शन करने के बराबर है।

फ़ीचर स्पेस मैपिंग और क्लासिफिकेशन / रिग्रेशन फंक्शन (फ़ीचर स्पेस में) सीखने के लिए नेटवर्क राशियों को प्रशिक्षित करना, जो एक साथ, सबसे अच्छा प्रदर्शन देते हैं। ग़ैर-छिपी छिपी हुई इकाइयों को मानते हुए, छिपी हुई परत की चौड़ाई बढ़ाना या कई छिपी हुई परतों को ढेर करना अधिक जटिल फ़ीचर स्पेस मैपिंग की अनुमति देता है, जिससे अधिक जटिल कार्यों को फिट किया जा सकता है।


7

गैर-शक्ति की शक्ति को देखने का एक तरीका सार्वभौमिक सन्निकटन प्रमेय को नोट करना है

यद्यपि यह व्यवहार में बहुत महत्वपूर्ण नहीं है (यह सिंगल लेयर नेटवर्क की क्षमताओं के बारे में है), यह आपको बताता है कि यदि आप सिग्मोइड के (मनमाने ढंग से लंबे) योगों का उपयोग करते हैं तो आप किसी भी वांछित स्तर पर किसी भी निरंतर कार्य को सिद्धांत रूप में अनुमानित कर सकते हैं। यदि आप फूरियर सिद्धांत को जानते हैं या वीयरस्ट्रैस सन्निकटन प्रमेय को याद करते हैं तो यह आश्चर्यजनक नहीं होना चाहिए।


3
यह एकमात्र व्यक्ति था जिसने वास्तव में सवाल का ठीक से उत्तर दिया, यद्यपि वह बहुत ही संक्षिप्त रूप से। एक छिपी हुई परत शक्तिशाली नई सुविधाओं को बनाने के लिए पर्याप्त है जो मूल विशेषताओं को जोड़ती है। समस्या यह है कि आपको बहुत अधिक नोड्स के साथ एक छिपी हुई परत की आवश्यकता हो सकती है, और अभिसरण प्रक्रिया छिपे हुए परतों के साथ एक गहरे नेटवर्क के साथ सबसे अच्छा काम करती है> 1.
रिकार्डो क्रूज़

5

जब तंत्रिका नेटवर्क में छिपी हुई परतें मौजूद होती हैं, तो हम गैर-रैखिक विशेषताएं जोड़ रहे हैं। कृपया कुछ समझ पाने के लिए मेरे उत्तर की जाँच करें।

क्या तंत्रिका नेटवर्क एक nonlinear वर्गीकरण मॉडल बनाता है?

विशेष रूप से, एक नेस्टेड सिग्मॉइड फ़ंक्शन मूल विशेषताओं और एक सिग्मॉइड फ़ंक्शन (लॉजिस्टिक प्रतिगमन) के रैखिक परिवर्तन से अधिक "शक्तिशाली" होगा।


ओपी की टिप्पणियों को संबोधित करने के लिए यहां एक संख्यात्मक उदाहरण है।

मान लें कि हमारे पास डेटा फ़्रेम , यह मैट्रिक्स (10 डेटा बिंदु, 3 विशेषताएं) है। हम चाहते हैं छिपा एकजुट करती है, तो वजन मैट्रिक्स एक है मैट्रिक्स। छिपी हुई परत के लिए आउटपुट (मैट्रिक्स गुणन का आउटपुट ) मैट्रिक्स है, जो प्रत्येक डेटा बिंदु के लिए विस्तारित विशेषताएं हैं।10 × 3 7 डब्ल्यू 3 × 7 एक्स × डब्ल्यू 10 × 7 7X10×37W3×7X×W10×77


मैं सोच रहा हूँ, तो किसी भी नोड की पहली परत आउटपुट में भिन्न कैसे होती है, Ie Node 1 को X1, X2, X3, Node 2 को भी X1, X2, X3 मिलता है, यदि वे सभी लॉजिस्टिक प्रतिगमन हैं, तो कैसे उनका आउटपुट अलग होने जा रहा है?
mskw

मान लें कि आपके पास 3 सुविधाएँ हैं, और 10 छिपी हुई इकाइयाँ हैं, तो छिपी हुई परत के आउटपुट में 10 "इंजीनियर सुविधाएँ" हैं।
डू

आप इसे "इंजीनियर फीचर्स" क्यों कहते हैं, क्या आप एक्स 1, एक्स 2, एक्स 3 का भी उल्लेख करते हैं?
mskw

मैं आपकी टिप्पणियों को संबोधित करने के लिए अपना उत्तर संपादित करूंगा।
डू

संशोधित करने के लिए धन्यवाद, आपके स्पष्टीकरण से, मुझे यकीन नहीं है कि आप मेरे सवाल का जवाब नहीं दे रहे हैं, या मेरे पास एक ज्ञान अंतराल है जहां मुझे पहले पुल करने की आवश्यकता है। विशेष रूप से, आपके जवाब से वज़न नोड के आउटपुट फ़ंक्शन में से प्रत्येक को संदर्भित करता है? यदि हां, तो वे एक ही परत पर दूसरे नोड्स से कैसे अलग हैं?
mskw

3

मानक लॉजिस्टिक प्रतिगमन में हमारे पास अंतिम परत में 1 आउटपुट है। हालांकि एक एकल छिपे हुए परत तंत्रिका नेटवर्क के साथ, हमारे पास कई मध्यवर्ती मान हो सकते हैं, जिनमें से प्रत्येक को एक अलग लॉजिस्टिक रिग्रेशन मॉडल के आउटपुट के रूप में माना जा सकता है अर्थात हम बार-बार एक ही लॉजिस्टिक रिग्रेशन का प्रदर्शन नहीं कर रहे हैं। यह सोचने के लिए एक बड़ी छलांग नहीं है कि यह संभव है कि इनमें से संयोजन में मानक लॉजिस्टिक प्रतिगमन मॉडल की तुलना में अधिक अभिव्यंजक क्षमताएं हैं (और यह अभ्यास और सिद्धांत में भी दिखाया गया है )।

आप टिप्पणियों में भी उल्लेख करते हैं कि कैसे इन नोड्स में एक ही परत में अलग-अलग मान हैं यदि उनके समान इनपुट हैं? ऐसा इसलिए है क्योंकि उनके पास अलग-अलग वजन होना चाहिए। एक तंत्रिका नेटवर्क में प्रत्येक नोड इनपुट लेता है और एक value जहाँ कुछ चुने हुए फंक्शन है, हमारे मामले में , वजन हैं, इनपुट हैं, और कुछ पूर्वाग्रह हैं। वजन चुना जाता हैवाई j = ( एन Σ मैं = 1 डब्ल्यू जे मैंएक्स मैं + j )डब्ल्यू जे मैं x मैं jNyj=f(i=1Nwjixi+bj)fwjixibjएक अनुकूलन एल्गोरिथ्म द्वारा हमारे उद्देश्य का अनुकूलन करने के लिए जैसे वर्गीकरण त्रुटि को कम करें। प्रारंभिक रूप से ढाल वंश एल्गोरिदम के लिए बहुत महत्वपूर्ण है जो आमतौर पर वजन को अनुकूलित करने के लिए उपयोग किया जाता है। Https://intoli.com/blog/neural-network-initialization/ देखें जहां यदि सभी वेट 0 पर शुरू होते हैं, तो नेटवर्क सीखने में असमर्थ है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.