एमएलडी में सॉफ्टमैक्स फ़ंक्शन और थर्मोडायनेमिक्स में बोल्ट्जमैन वितरण के बीच संबंध कितना गहरा है?


12

सॉफ्टमैक्स फ़ंक्शन, जिसे आमतौर पर न्यूरल नेटवर्क में वास्तविक संख्याओं को संभावनाओं में परिवर्तित करने के लिए उपयोग किया जाता है, बोल्ट्जमन वितरण के समान ही फ़ंक्शन है, थर्मोडायनेमिक्स में दिए गए टी पर थर्मल संतुलन में कणों के संयोजन के लिए ऊर्जा पर संभाव्यता वितरण।

मैं कुछ स्पष्ट विषम कारणों को देख सकता हूं कि यह व्यावहारिक क्यों है:

  • कोई फर्क नहीं पड़ता कि इनपुट मान नकारात्मक हैं, सॉफ्टमैक्स सकारात्मक मानों को आउटपुट करता है जो एक योग है।
  • यह हमेशा अलग-अलग होता है, जो बैकप्रॉपैजेशन के लिए आसान है।
  • इसका एक 'टेम्परेचर' पैरामीटर होता है जो बताता है कि नेटवर्क कितने छोटे मूल्यों की ओर होना चाहिए (जब T बहुत बड़ा हो, सभी परिणाम समान रूप से होने की संभावना हो, जब बहुत छोटा हो, केवल सबसे बड़ा इनपुट वाला मान चयनित हो)।

क्या बोल्ट्ज़मन फ़ंक्शन केवल व्यावहारिक कारणों से सॉफ्टमैक्स के रूप में उपयोग किया जाता है, या क्या थर्मोडायनामिक्स / सांख्यिकीय भौतिकी से गहरा संबंध है?


1
मैं यह नहीं देखता कि यह करीबी वोट क्यों आकर्षित कर रहा है - यह पूरी तरह से उचित सवाल है।
मैट क्रैस

2
+1 से @ मैट्रक्यूज़-एनएन निश्चित रूप से विषय पर हैं, जैसा कि मुझे लगता है - सांख्यिकीय भौतिकी।
शॉन ईस्टर

मैं देख सकता हूं कि सबसे अधिक एसओ प्रश्नों की तुलना में प्रश्न अधिक 'खुला' कैसे है, इस अर्थ में कि मैं किसी समस्या का समाधान नहीं ढूंढ रहा हूं, लेकिन अधिक सामान्य ज्ञान। हालाँकि, मैं इसे पूछने के लिए एक बेहतर जगह के बारे में नहीं सोच सकता था या इसे पूछने के लिए अधिक विशिष्ट तरीका नहीं था।
अहुरा

जवाबों:


3

मेरे ज्ञान के लिए कोई गहरा कारण नहीं है, इस तथ्य के अलावा कि बहुत से लोग जो एएनएन को परसेप्ट्रॉन चरण से परे ले गए थे वे भौतिक विज्ञानी थे।

उल्लिखित लाभों के अलावा, इस विशेष पसंद के अधिक फायदे हैं। जैसा कि उल्लेख किया गया है, इसमें एक एकल पैरामीटर है जो आउटपुट व्यवहार को निर्धारित करता है। जो बदले में अपने आप में अनुकूलित या ट्यून किया जा सकता है।

संक्षेप में, यह एक बहुत ही उपयोगी और प्रसिद्ध कार्य है जो एक प्रकार का 'नियमितीकरण' प्राप्त करता है, इस अर्थ में कि सबसे बड़े इनपुट मान भी प्रतिबंधित हैं।

बेशक कई अन्य संभावित कार्य हैं जो समान आवश्यकताओं को पूरा करते हैं, लेकिन वे भौतिकी की दुनिया में कम प्रसिद्ध हैं। और ज्यादातर समय, वे उपयोग करने के लिए कठिन हैं।


2

सॉफ्टमैक्स फ़ंक्शन का उपयोग असतत पसंद मॉडलिंग में भी किया जाता है, यह लॉजिट मॉडल के समान है, अगर यू मान लें कि प्रत्येक वर्ग के साथ एक उपयोगिता फ़ंक्शन जुड़ा हुआ है, और उपयोगिता फ़ंक्शन तंत्रिका नेटवर्क के आउटपुट के बराबर है + गम्बल के बाद एक त्रुटि शब्द वितरण, एक वर्ग से संबंधित होने की संभावना इनपुट के रूप में तंत्रिका नेटवर्क के साथ सॉफ्टमैक्स फ़ंक्शन के बराबर होती है। देखें: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

लॉबी मॉडल के विकल्प हैं, जैसे कि प्रोबेट मॉडल, जहां त्रुटि शब्द को मानक सामान्य वितरण का पालन करने के लिए माना जाता है, जो एक बेहतर धारणा है। हालाँकि, संभावना अपरिवर्तनीय होगी और हल करने के लिए कम्प्यूटेशनल महंगा होगा, इसलिए आमतौर पर तंत्रिका नेटवर्क में इसका उपयोग नहीं किया जाता है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.