तंत्रिका नेटवर्क का लागत समारोह गैर-उत्तल है?


36

तंत्रिका नेटवर्क की लागत फ़ंक्शन , और यह गैर-उत्तल होने का दावा किया जाता है । मुझे यह समझ में नहीं आया कि यह ऐसा क्यों है, क्योंकि मैं देख रहा हूं कि यह लॉजिस्टिक रिग्रेशन के लागत समारोह के समान है, है ना?J(W,b)

यदि यह गैर-उत्तल है, तो 2 क्रम व्युत्पन्न , सही है?JW<0

अद्यतन करें

नीचे दिए गए जवाबों के साथ-साथ @ गंग की टिप्पणी के लिए धन्यवाद, मुझे आपकी बात मिल गई, यदि कोई छिपी हुई परतें नहीं हैं, तो यह उत्तल है, लॉजिस्टिक प्रतिगमन की तरह। लेकिन अगर वहाँ छिपी हुई परतें हैं, तो छिपे हुए परतों में नोड्स के साथ-साथ बाद के कनेक्शनों में भार की अनुमति देकर, हम एक ही नुकसान के परिणामस्वरूप वजन के कई समाधान कर सकते हैं।

अब और प्रश्न,

1) वहाँ कई स्थानीय minima हैं, और उनमें से कुछ एक ही मूल्य का होना चाहिए, क्योंकि वे कुछ नोड्स और भार क्रमांकन के अनुरूप हैं, है ना?

2) यदि नोड्स और वज़न की अनुमति नहीं होगी, तो यह उत्तल है, है ना? और मिनीमा ग्लोबल मिनीमा होगा। यदि हां, तो 1) का उत्तर है, जो सभी स्थानीय मिनीमा एक ही मूल्य के होंगे, सही है?


यह गैर-उत्तल है कि इसमें कई स्थानीय मिनीमा हो सकते हैं।
गंग -

2
तंत्रिका नेटवर्क पर निर्भर करता है। रैखिक सक्रियण कार्यों और वर्ग हानि के साथ तंत्रिका नेटवर्क उत्तल अनुकूलन का उत्पादन करेगा (यदि मेरी स्मृति मुझे निश्चित variances के साथ रेडियल आधार फ़ंक्शन नेटवर्क के लिए भी सही काम करती है)। हालांकि तंत्रिका नेटवर्क का उपयोग ज्यादातर गैर-रैखिक सक्रियण कार्यों (यानी सिग्मॉइड) के साथ किया जाता है, इसलिए अनुकूलन गैर-उत्तल हो जाता है।
कागदस ओजेंकेन

@ गुंग, मुझे आपकी बात समझ आ गई, और अब मेरे पास और सवाल हैं, कृपया मेरा अपडेट देखिए :-)
एवोकैडो

5
इस बिंदु पर (2 साल बाद), अपने प्रश्न को पिछले संस्करण में वापस करने के लिए बेहतर हो सकता है, नीचे दिए गए उत्तरों में से एक को स्वीकार करें, और एक नया, अनुवर्ती प्रश्न पूछें जो इस संदर्भ के लिए लिंक करता है।
गुंग - को पुनः स्थापित मोनिका

1
@ गुंग, हाँ आप सही कह रहे हैं, लेकिन अब मैं उत्तर के कुछ पहलुओं के बारे में निश्चित नहीं हूं, जो मैंने पहले बताए थे। खैर, जैसा कि मैंने नीचे दिए गए उत्तरों पर कुछ नई टिप्पणियाँ छोड़ दी हैं, मैं यह देखने के लिए थोड़ी प्रतीक्षा करूंगा कि क्या यह एक नया पूछना आवश्यक है।
एवोकैडो

जवाबों:


25

तंत्रिका नेटवर्क का लागत कार्य सामान्य रूप से न तो उत्तल होता है और न ही अवतल होता है। इसका मतलब यह है कि सभी दूसरे आंशिक व्युत्पन्न (हेसियन) का मैट्रिक्स न तो सकारात्मक अर्धचालक है, और न ही नकारात्मक अर्धवार्षिक। चूंकि दूसरा व्युत्पन्न एक मैट्रिक्स है, इसलिए यह संभव है कि यह न तो एक है और न ही दूसरा है।

इसे एक-चर कार्यों के अनुरूप बनाने के लिए, कोई कह सकता है कि लागत फ़ंक्शन न तो के ग्राफ की तरह आकार का है और न ही के ग्राफ की तरह । गैर-उत्तल, गैर-अवतल कार्य का एक और उदाहरण पर । सबसे हड़ताली मतभेदों में से एक यह है कि में केवल एक चरम है, जबकि में असीम रूप से कई मैक्सिमा और मिनिमा हैं। - एक्स 2 पाप ( एक्स ) आर ± एक्स 2 पापx2x2sin(x)R±x2sin

यह हमारे तंत्रिका नेटवर्क से कैसे संबंधित है? एक लागत फ़ंक्शन में कई स्थानीय मैक्सिमा और मिनिमा भी हैं, जैसा कि आप इस तस्वीर में देख सकते हैं , उदाहरण के लिए।J(W,b)

तथ्य यह है कि में कई मिनीमा है, इसकी व्याख्या भी अच्छे तरीके से की जा सकती है। प्रत्येक परत में, आप कई नोड्स का उपयोग करते हैं जिन्हें लागत फ़ंक्शन को छोटा करने के लिए अलग-अलग पैरामीटर असाइन किए जाते हैं। मापदंडों के मूल्यों को छोड़कर, ये नोड समान हैं। तो आप पहले नोड के मापदंडों को एक परत में दूसरे नोड के उन हिस्सों के साथ विनिमय कर सकते हैं, और बाद की परतों में इस बदलाव के लिए लेखांकन कर सकते हैं। आप मापदंडों के एक अलग सेट के साथ समाप्त होंगे, लेकिन लागत फ़ंक्शन के मूल्य को अलग-अलग नहीं किया जा सकता है (मूल रूप से आप सिर्फ एक नोड को दूसरी जगह ले गए थे, लेकिन सभी इनपुट / आउटपुट को समान रखा था)।J


ठीक है, मैं आपके द्वारा किए गए अनुज्ञा स्पष्टीकरण को समझता हूं, मुझे लगता है कि यह समझ में आता है, लेकिन अब मुझे आश्चर्य है कि यह स्पष्ट करने के लिए कि तंत्रिका जाल गैर-उत्तल क्यों है?
एवोकैडो

1
'प्रामाणिक एक' से आपका क्या तात्पर्य है?
रोलैंड

मेरा मतलब है, यह इस तरह से व्याख्या की जानी चाहिए, न कि केवल एक सादृश्य।
एवोकैडो

4
@loganecolss आप सही हैं कि केवल यही कारण नहीं है कि लागत कार्य गैर-उत्तल हैं, लेकिन सबसे स्पष्ट कारणों में से एक है। नेटवर्क और प्रशिक्षण सेट पर निर्भर करते हुए, वहाँ कई कारण हो सकते हैं कि कई मिनीमा क्यों हैं। लेकिन नीचे की रेखा यह है: अकेले अनुमति गैर-उत्तलता पैदा करती है, अन्य प्रभावों की परवाह किए बिना।
रोलैंड

1
क्षमा करें, मैं पिछले पैराग्राफ को नहीं समझ सकता। लेकिन मुझे यह भी गलतफहमी है कि मैंने यहां अधिकतम (0, x) का उल्लेख क्यों किया। किसी भी मामले में - मुझे लगता है कि यह दिखाने का सही तरीका है कि शायद कई मोड (एकाधिक स्थानीय न्यूनतम) किसी तरह से साबित हो। ps यदि हेसियन अनिश्चितकालीन है तो उसने कहा कि कुछ भी नहीं - क्वासिकोवेक्स फ़ंक्शन में अनिश्चित हेसियन हो सकता है लेकिन यह अभी भी असमान है।
ब्रूज़ुज

17

यदि आप छिपी हुई परत में न्यूरॉन्स की अनुमति देते हैं और आसन्न परतों के वजन पर एक ही क्रमपरिवर्तन करते हैं तो नुकसान बदल जाता है। इसलिए, अगर वजन के एक समारोह के रूप में एक गैर-शून्य वैश्विक न्यूनतम है, तो यह अद्वितीय नहीं हो सकता है क्योंकि वजन की क्रमबद्धता एक और न्यूनतम है। इसलिए फ़ंक्शन उत्तल नहीं है।


5

उद्देश्य फ़ंक्शन उत्तल है या नहीं, यह नेटवर्क के विवरण पर निर्भर करता है। इस मामले में जहां कई स्थानीय मिनीमा मौजूद हैं, आप पूछते हैं कि क्या वे सभी समान हैं। सामान्य तौर पर, उत्तर नहीं है, लेकिन नेटवर्क के आकार के साथ अच्छे सामान्यीकरण के प्रदर्शन के साथ स्थानीय न्यूनतम खोजने की संभावना बढ़ जाती है।

यह कागज ब्याज का है:

कोरोमांस्का एट अल। (2015)। मल्टीलेयर नेटवर्क के नुकसान की भरपाई

http://arxiv.org/pdf/1412.0233v3.pdf

परिचय से:

  • बड़े आकार के नेटवर्क के लिए, अधिकांश स्थानीय मिनीमा बराबर हैं और परीक्षण सेट पर समान प्रदर्शन करते हैं।

  • "खराब" (उच्च मूल्य) स्थानीय न्यूनतम खोजने की संभावना छोटे आकार के नेटवर्क के लिए गैर-शून्य है और नेटवर्क आकार के साथ जल्दी से घट जाती है।

  • प्रशिक्षण सेट पर वैश्विक न्यूनतम खोजने के लिए संघर्ष (कई अच्छे स्थानीय लोगों में से एक के विपरीत) व्यवहार में उपयोगी नहीं है और इससे ओवरफिटिंग हो सकती है।

वे कुछ कागजात का हवाला देते हुए बताते हैं कि बड़े नेटवर्क का प्रशिक्षण देते समय स्थानीय मिनिमा की तुलना में काठी अंक कितना बड़ा मुद्दा होता है।


4

आपके अपडेट के लिए कुछ जवाब:

  1. हां, सामान्य रूप से कई स्थानीय मिनीमा हैं। (यदि केवल एक ही था, तो इसे वैश्विक न्यूनतम कहा जाएगा।) स्थानीय मिनीमा आवश्यक रूप से समान मूल्य का नहीं होगा। सामान्य तौर पर, समान मान साझा करने वाला कोई स्थानीय मिनीमा नहीं हो सकता है।

  2. नहीं, यह उत्तल नहीं है जब तक कि यह एक-परत नेटवर्क न हो। सामान्य मल्टीपल-लेयर मामले में, बाद की परतों (वजन और सक्रियण पैरामीटर) के पैरामीटर पिछली परतों में मापदंडों के अत्यधिक पुनरावर्ती कार्य हो सकते हैं। आम तौर पर, कुछ पुनरावर्ती संरचना द्वारा शुरू किए गए निर्णय चर का गुणा उत्तलता को नष्ट करता है। इसका एक और बड़ा उदाहरण है बार विश्लेषण में एमए (q) मॉडल।

yXyXβ


1
"वन-लेयर नेटवर्क" वही होगा जो "सॉफ्टमैक्स" या लॉजिस्टिक रिग्रेशन जैसा दिखता है, ठीक है?
एवोकैडो

"नोड्स और वेट्स की अनुमति देकर", मेरा मतलब है "स्वैपिंग", और यही मुझे उपरोक्त 2 पुराने उत्तरों से मिला है, और जैसा कि मैंने उनके जवाबों को समझा, छिपे हुए परतों में नोड्स और वेट्स को "स्वैप" करके , हम समाप्त हो सकते हैं। सिद्धांत में एक ही आउटपुट, और इसलिए हमारे पास कई मिनीमा हो सकते हैं। आपका मतलब है कि यह स्पष्टीकरण सही नहीं है?
एवोकैडो

आपके पास सही विचार है, लेकिन यह बिल्कुल समान नहीं है। नेटवर्क के लिए, नुकसान आवश्यक रूप से द्विपद हानि नहीं हो सकता है, सक्रियण कार्य आवश्यक रूप से सिग्मॉयड नहीं हो सकते हैं, आदि
मुस्तफा एस ईसा

हां, मुझे नहीं लगता कि यह सही है। हालांकि यह सच है कि आपको वही प्रदर्शन मिलेगा चाहे आप इन शर्तों को अनुमति दें या नहीं, यह किसी भी समस्या के उत्तलता या गैर-उत्तलता को परिभाषित नहीं करता है। अनुकूलन समस्या उत्तल है यदि, एक निश्चित हानि फ़ंक्शन के लिए (नुकसान में शर्तों का कोई भी क्रमांकन नहीं), उद्देश्य फ़ंक्शन मॉडल पैरामीटर और व्यवहार्य क्षेत्र है जिस पर आप अनुकूलन कर रहे हैं उत्तल है और उत्तल है।
मुस्तफा एस आइसा

मैं देखता हूं, इसलिए अगर यह "वन-लेयर" है, तो यह "सॉफ्टमैक्स" नहीं हो सकता है।
एवोकैडो

2

यदि समस्या उत्तल या क्वासिकोवेक्स है तो आपके पास एक वैश्विक न्यूनतम होगा।

तंत्रिका नेटवर्क (कंप्यूटर विज्ञान संस्करण) के निर्माण के दौरान उत्तल "बिल्डिंग ब्लॉक्स" के बारे में

मुझे लगता है कि उनमें से कई हैं जिनका उल्लेख किया जा सकता है:

  1. अधिकतम (0, x) - उत्तल और बढ़ता है

  2. लॉग-सम-एक्सप - उत्तल और प्रत्येक पैरामीटर में वृद्धि

  3. y = कुल्हाड़ी एफिन है और इसलिए (ए) में उत्तल है, शायद बढ़ रही है शायद कम हो रही है। y = कुल्हाड़ी एफिन है और इसलिए (x) में उत्तल है, शायद बढ़ रहा है शायद कम हो रहा है।

दुर्भाग्य से यह (ए, एक्स) में उत्तल नहीं है क्योंकि यह अनिश्चित द्विघात रूप में दिखता है।

  1. सामान्य गणित असतत कनवल्शन ("सामान्य रूप से" मेरा मतलब है कि दोहराए जाने वाले संकेत के साथ परिभाषित) Y = h * X ऐसा लगता है कि यह h या वेरिएबल X का affine फंक्शन है। इसलिए यह वेरिएबल h या वेरिएबल X में एक उत्तल है। मुझे ऐसा नहीं लगता क्योंकि जब एच और एक्स स्केलर्स कनवल्शन होते हैं तो अनिश्चित द्विघात रूप में कम हो जाएंगे।

  2. मैक्स (एफ, जी) - अगर एफ और जी उत्तल हैं तो अधिकतम (एफ, जी) भी उत्तल है।

यदि आप एक फ़ंक्शन को दूसरे में स्थानापन्न करते हैं और रचनाएँ बनाते हैं तो अभी भी y = h (g (x), q (x)) के लिए उत्तल कक्ष में स्थित हैं, लेकिन h को उत्तल होना चाहिए और प्रत्येक तर्क में वृद्धि (गैर-कमी) होनी चाहिए। ...

गैर-उत्तल में तंत्रिका नेटवॉक क्यों:

  1. मुझे लगता है कि कनवल्शन Y = h * X, नेस्सेसरी एच में बढ़ते हुए नहीं है। इसलिए यदि आप कर्नेल के बारे में किसी भी अतिरिक्त धारणा का उपयोग नहीं करते हैं तो आप कनवल्शन लागू करने के तुरंत बाद उत्तल अनुकूलन से बाहर निकल जाएंगे। इसलिए रचना के साथ सब ठीक नहीं है

  2. यदि जोड़े के रूप में ऊपर उल्लेख किया गया है, तो भी कनवल्शन और मैट्रिक्स गुणा उत्तल नहीं है। इसलिए मैट्रिक्स गुणन के साथ एक समस्या है: यह मापदंडों (ए, एक्स) में गैर-उत्तल संचालन है

  3. y = कुल्हाड़ी (ए, एक्स) में क्वासिकोवेक्स हो सकती है लेकिन अतिरिक्त मान्यताओं को भी ध्यान में रखा जाना चाहिए।

कृपया मुझे बताएं कि क्या आप असहमत हैं या कोई अतिरिक्त विचार है। सवाल मेरे लिए भी बहुत दिलचस्प है।

पीएस मैक्स-पूलिंग - जो अधिकतम चयन के साथ डाउनस्म्पिंग है, एफ़िन प्रीकम्पोज़िशन (ज़रूरत ब्लॉकों को खींचने के लिए) के साथ एलीमेंटवाइज़ मैक्स ऑपरेशंस के कुछ संशोधन की तरह दिखता है और यह मेरे लिए उत्तल दिखता है।

अन्य सवालों के बारे में

  1. नहीं, लॉजिस्टिक प्रतिगमन उत्तल या अवतल नहीं है, बल्कि यह लॉग-अवतल है। इसका मतलब यह है कि लघुगणक लागू करने के बाद आप व्याख्यात्मक चर में अवतल कार्य करेंगे। तो यहाँ अधिकतम लॉग-लाइक ट्रिक बहुत बढ़िया है।

  2. यदि केवल एक वैश्विक न्यूनतम नहीं हैं। स्थानीय न्यूनतम के बीच संबंध के बारे में कुछ नहीं कहा जा सकता है। या कम से कम आप उत्तल अनुकूलन का उपयोग नहीं कर सकते हैं और यह इसके लिए एक्सटेंशन है, क्योंकि गणित का यह क्षेत्र वैश्विक रूप से कम करके आंका जाता है।

हो सकता है कि आपको इस बारे में भ्रम हो। क्योंकि वास्तव में ऐसे स्कीमा बनाने वाले लोग सिर्फ "कुछ" करते हैं और वे "कुछ" प्राप्त करते हैं। दुर्भाग्य से क्योंकि हमारे पास गैर-उत्तल अनुकूलन (सामान्य रूप से) से निपटने के लिए सही तंत्र नहीं है।

लेकिन न्यूरल नेटवर्क्स के बगल में और भी सरल चीजें हैं - जिन्हें गैर-रैखिक कम वर्गों की तरह हल नहीं किया जा सकता है - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.