LSTM नेटवर्क के लिए हाइपरपैरामीटर में से एक तापमान है। यह क्या है?
LSTM नेटवर्क के लिए हाइपरपैरामीटर में से एक तापमान है। यह क्या है?
जवाबों:
तापमान LSTM (और तंत्रिका नेटवर्क आमतौर पर) का हाइपरपरेट है जो सॉफ्टमैक्स लगाने से पहले लॉग को स्केल करके भविष्यवाणियों की यादृच्छिकता को नियंत्रित करने के लिए उपयोग किया जाता है। उदाहरण के लिए, TSTorFlow की LSTMs के मैजेंटा कार्यान्वयन में, तापमान का प्रतिनिधित्व करता है कि सॉफ्टमैक्स की गणना करने से पहले लॉगिट्स को विभाजित करने के लिए कितना।
जब तापमान 1 होता है, हम सॉफ्टमैक्स की गणना सीधे लॉगिट्स (पहले की परतों के अनकल्ड आउटपुट) पर करते हैं, और 0.6 के तापमान का उपयोग करके मॉडल l o g i t s पर सॉफ्टमैक्स की गणना करता है , जिसके परिणामस्वरूप एक बड़ा मूल्य है। बड़े मूल्यों पर सॉफ्टमैक्स का प्रदर्शन करना LSTM कोअधिक आत्मविश्वास देता है(आउटपुट लेयर को सक्रिय करने के लिए कम इनपुट की आवश्यकता होती है) लेकिनइसके नमूनों मेंअधिक रूढ़िवादी(यह असंभावित उम्मीदवारों से नमूना लेने की संभावना कम है)। उच्च तापमान का उपयोग करने से कक्षाओं में एक नरम संभावना वितरण पैदा होता है, और नमूनों द्वारा RNN को अधिक आसानी से "आसानी से उत्साहित" बनाता है, जिसके परिणामस्वरूपअधिक विविधताऔरअधिक गलतियांभीहोती हैं।
तंत्रिका नेटवर्क लॉजिक वेक्टर जहां z = ( z 1 , … , z n ) के साथ वर्ग संभाव्यताएं उत्पन्न करते हैं, सॉफ्टमैक्स फंक्शन प्रदर्शन करके प्रायिकता वेक्टर q = ( q 1 , … , q n ) का उत्पादन करने के लिए z i के साथ अन्य गुणों के साथ तुलना करते हैं। ।
जहां तापमान पैरामीटर है, आम तौर पर 1 पर सेट होता है।
सॉफ्टमैक्स फ़ंक्शन नेटवर्क के प्रत्येक पुनरावृत्ति पर उम्मीदवारों को उनके घातीय मूल्यों के आधार पर सामान्य करता है यह सुनिश्चित करके कि नेटवर्क आउटपुट सभी शून्य और हर टाइमस्टेप पर एक के बीच हैं।
इसलिए तापमान कम संभावना वाले उम्मीदवारों की संवेदनशीलता को बढ़ाता है। LSTM में, उम्मीदवार, या नमूना, उदाहरण के लिए एक पत्र, एक शब्द या संगीत नोट हो सकता है:
- सॉफ्टमैक्स फ़ंक्शन पर विकिपीडिया लेख से
हिंटन, जेफ्री, ओरोल विनयल्स और जेफ डीन। "तंत्रिका नेटवर्क में ज्ञान का प्रसार।" arXiv प्रीप्रिंट arXiv: 1503.02531 (2015)। arXiv