LSTM (और तंत्रिका नेटवर्क) में तापमान क्या है?


जवाबों:


28

तापमान LSTM (और तंत्रिका नेटवर्क आमतौर पर) का हाइपरपरेट है जो सॉफ्टमैक्स लगाने से पहले लॉग को स्केल करके भविष्यवाणियों की यादृच्छिकता को नियंत्रित करने के लिए उपयोग किया जाता है। उदाहरण के लिए, TSTorFlow की LSTMs के मैजेंटा कार्यान्वयन में, तापमान का प्रतिनिधित्व करता है कि सॉफ्टमैक्स की गणना करने से पहले लॉगिट्स को विभाजित करने के लिए कितना।

जब तापमान 1 होता है, हम सॉफ्टमैक्स की गणना सीधे लॉगिट्स (पहले की परतों के अनकल्ड आउटपुट) पर करते हैं, और 0.6 के तापमान का उपयोग करके मॉडल l o g i t s पर सॉफ्टमैक्स की गणना करता है , जिसके परिणामस्वरूप एक बड़ा मूल्य है। बड़े मूल्यों पर सॉफ्टमैक्स का प्रदर्शन करना LSTM कोअधिक आत्मविश्वास देता है(आउटपुट लेयर को सक्रिय करने के लिए कम इनपुट की आवश्यकता होती है) लेकिनइसके नमूनों मेंअधिक रूढ़िवादी(यह असंभावित उम्मीदवारों से नमूना लेने की संभावना कम है)। उच्च तापमान का उपयोग करने से कक्षाओं में एक नरम संभावना वितरण पैदा होता है, और नमूनों द्वारा RNN को अधिक आसानी से "आसानी से उत्साहित" बनाता है, जिसके परिणामस्वरूपअधिक विविधताऔरअधिक गलतियांभीहोती हैंएलजीमैंटीरों0.6

तंत्रिका नेटवर्क लॉजिक वेक्टर जहां z = ( z 1 , , z n ) के साथ वर्ग संभाव्यताएं उत्पन्न करते हैं, सॉफ्टमैक्स फंक्शन प्रदर्शन करके प्रायिकता वेक्टर q = ( q 1 , , q n ) का उत्पादन करने के लिए z i के साथ अन्य गुणों के साथ तुलना करते हैं। ।zz=(z1,...,zn)क्ष=(क्ष1,...,क्षn)zमैं

(1)क्षमैं=exp(zमैं/टी)Σjexp(zj/टी)

जहां टी तापमान पैरामीटर है, आम तौर पर 1 पर सेट होता है।

सॉफ्टमैक्स फ़ंक्शन नेटवर्क के प्रत्येक पुनरावृत्ति पर उम्मीदवारों को उनके घातीय मूल्यों के आधार पर सामान्य करता है यह सुनिश्चित करके कि नेटवर्क आउटपुट सभी शून्य और हर टाइमस्टेप पर एक के बीच हैं।

इसलिए तापमान कम संभावना वाले उम्मीदवारों की संवेदनशीलता को बढ़ाता है। LSTM में, उम्मीदवार, या नमूना, उदाहरण के लिए एक पत्र, एक शब्द या संगीत नोट हो सकता है:

ττ0+

- सॉफ्टमैक्स फ़ंक्शन पर विकिपीडिया लेख से

संदर्भ

हिंटन, जेफ्री, ओरोल विनयल्स और जेफ डीन। "तंत्रिका नेटवर्क में ज्ञान का प्रसार।" arXiv प्रीप्रिंट arXiv: 1503.02531 (2015)। arXiv


3
यह बोल्ट्जमैन वितरण (या गिब्स वितरण) के लिए भ्रम में है - सांख्यिकीय यांत्रिकी में उपयोग की जाने वाली संभावना वितरण।
mc2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.