क्या हम तंत्रिका नेटवर्क भार का अनुमान लगाने के लिए MLE का उपयोग कर सकते हैं?


23

मैंने अभी आँकड़े और मॉडल के सामान के बारे में अध्ययन करना शुरू किया। वर्तमान में, मेरी समझ यह है कि हम एक मॉडल के लिए सर्वोत्तम पैरामीटर (अनुमानों) का अनुमान लगाने के लिए MLE का उपयोग करते हैं। हालांकि, जब मैं यह समझने की कोशिश करता हूं कि तंत्रिका नेटवर्क कैसे काम करते हैं, तो ऐसा लगता है कि वे आमतौर पर मापदंडों का अनुमान लगाने के लिए दूसरे दृष्टिकोण का उपयोग करते हैं। हम MLE का उपयोग क्यों नहीं करते हैं या MLE का उपयोग करना संभव है?

जवाबों:


16

कृत्रिम तंत्रिका नेटवर्क भार (ANN) के MLE अनुमान निश्चित रूप से संभव हैं ; वास्तव में, यह पूरी तरह से विशिष्ट है। वर्गीकरण की समस्याओं के लिए, एक मानक उद्देश्य फ़ंक्शन क्रॉस-एन्ट्रॉपी है, जो एक द्विपद मॉडल के नकारात्मक लॉग-संभावना के समान है। प्रतिगमन समस्याओं के लिए, अवशिष्ट वर्ग त्रुटि का उपयोग किया जाता है, जो ओएलएस प्रतिगमन के MLE को समानता देता है।

लेकिन यह मानने में कुछ दिक्कतें हैं कि शास्त्रीय आंकड़ों में मौजूद MLE के अच्छे गुण MLE के तंत्रिका नेटवर्क के लिए भी मौजूद हैं।

  1. एएनएन अनुमान के साथ एक सामान्य समस्या है: एकल-परत एएनएन के कई सममित समाधान भी हैं। छिपी हुई परत के लिए भार के संकेतों को उल्टा करना, और छिपी हुई परत के सक्रियण मापदंडों के संकेतों को उलट देना दोनों समान संभावना है। इसके अतिरिक्त, आप किसी भी छिपे हुए नोड्स की अनुमति दे सकते हैं और इन क्रमपरिवर्तन की भी समान संभावना है। यह परिणामी इन्सोफ़र है क्योंकि आपको स्वीकार करना चाहिए कि आप पहचान को छोड़ रहे हैं। हालाँकि, यदि पहचान महत्वपूर्ण नहीं है, तो आप बस स्वीकार कर सकते हैं कि ये वैकल्पिक समाधान सिर्फ एक दूसरे के प्रतिबिंब और / या क्रमपरिवर्तन हैं।

    यह आंकड़ों के MLE के शास्त्रीय उपयोगों के विपरीत है, जैसे कि OLS प्रतिगमन: OLS समस्या उत्तल है, और कड़ाई से उत्तल होती है जब डिज़ाइन मैट्रिक्स पूर्ण रैंक होती है। मजबूत उत्तलता का तात्पर्य है कि एक एकल, अद्वितीय न्यूनतर है।

  2. अप्रतिबंधित समाधान का उपयोग करने पर ANN डेटा को ओवरफिट करेगा। वज़न मूल से दूर बड़े पैमाने पर दौड़ लगाने के लिए होगा, जो सामान्य रूप से अच्छी तरह से सामान्य नहीं होता है या बहुत सटीकता के साथ नए डेटा की भविष्यवाणी करता है। वजन घटने या नियमित करने के अन्य तरीकों को अपनाने से वजन घटने का असर शून्य की ओर होता है। यह (1) से अनिश्चितता के मुद्दे को हल करने के लिए जरूरी नहीं है, लेकिन यह नेटवर्क के सामान्यीकरण में सुधार कर सकता है।

  3. नुकसान फ़ंक्शन गैर-संवेदी है और अनुकूलन स्थानीय रूप से इष्टतम समाधान पा सकता है जो वैश्विक रूप से इष्टतम नहीं हैं । या शायद ये समाधान काठी बिंदु हैं, जहां कुछ अनुकूलन विधियाँ ठप हैं। इस पत्र के परिणामों से पता चलता है कि आधुनिक अनुमान विधियाँ इस मुद्दे को दरकिनार कर देती हैं।

  4. एल1एल2


2
आप जो कहते हैं, उससे अलग होने की भीख मांगता हूं। समरूपता से उत्पन्न होने वाली विभिन्न स्थानीय मिनीमा सभी एक ही गुणवत्ता के हैं, इसलिए आपको इसके बारे में चिंता करने की आवश्यकता नहीं है। जो आप शायद कहना चाहते हैं, वह यह है कि एएनएन में उत्तल हानि कार्य नहीं होते हैं, जो अनुकूलन को अधिक शामिल करता है और वैश्विक इष्टतम खोजने की गारंटी नहीं देता है। हालांकि, हाल ही में कुछ सबूत मिले हैं कि एएनएन में वास्तव में स्थानीय मिनीमाता के मुद्दे नहीं हैं, बल्कि मुद्दे काठी हैं। उदाहरण के लिए देखें arxiv.org/abs/1412.6544
बायरज

11

वर्गीकरण की समस्याओं में, तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए सबसे सामान्य तरीका है (दोनों पर्यवेक्षित और अनुपयोगी मॉडल)।

व्यवहार में, हम आमतौर पर नकारात्मक लॉग-लाइबिलिटी (समकक्ष MLE) को कम से कम करते हैं। नकारात्मक लॉग-लाइक का उपयोग करने के लिए एकमात्र बाधा एक आउटपुट परत है जिसे एक संभावना वितरण के रूप में व्याख्या की जा सकती है। एक सॉफ्टमैक्स आउटपुट लेयर का इस्तेमाल आमतौर पर ऐसा करने के लिए किया जाता है। ध्यान दें कि तंत्रिका-नेटवर्क समुदाय में, नकारात्मक लॉग-संभावना को कभी-कभी क्रॉस-एंट्रोपी के रूप में संदर्भित किया जाता है। नियमितीकरण की शर्तों को निश्चित रूप से जोड़ा जा सकता है (और कभी-कभी मापदंडों पर पूर्व वितरण के रूप में व्याख्या की जा सकती है, उस स्थिति में हम अधिकतम पोस्टीरियर ( एमएपी ) की तलाश कर रहे हैं )।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.