बैकग्राउंड: मैं इयान गुडफेलो और योशुआ बेंगियो और आरोन कोर्टविल द्वारा डीप लर्निंग के अध्याय 6 का अध्ययन कर रहा हूं। खंड 6.2.2.2 में (183 के पृष्ठ 182 जो यहां देखे जा सकते हैं ) आउटपुट लिए सिग्मॉइड का उपयोग प्रेरित है।
सक्रियण के लागू होने से पहले वे कुछ सामग्री को संक्षेप में बताते हैं कि एक आउटपुट न्यूरॉन है जहां पिछली छिपी हुई परत का आउटपुट है, वजन का एक वेक्टर है और एक अदिश पूर्वाग्रह है। इनपुट वेक्टर निरूपित किया जाता है (जो के एक समारोह है) और उत्पादन मूल्य निरूपित किया जाता है जहां अवग्रह समारोह है। पुस्तक मूल्य का उपयोग करके पर एक प्रायिकता वितरण de fi ne करना चाहती है । पृष्ठ 183 के दूसरे पैराग्राफ से:ज w ख एक्स एच y = φ ( जेड )
हम इस बात पर विचार करने के लिए पर निर्भरता छोड़ देते हैं कि वैल्यू का उपयोग करके पर एक प्रायिकता वितरण को de कैसे करें । सिग्मॉइड को एक असामान्य संभावना संभावना वितरण निर्माण के द्वारा प्रेरित किया जा सकता है , जिसका योग 1 नहीं है। हम तब एक उचित प्रायिकता वितरण प्राप्त करने के लिए एक उपयुक्त स्थिरांक से विभाजित कर सकते हैं। यदि हम इस धारणा से शुरू करते हैं कि असामान्य रूप से लॉग संभावनाएँ और में रैखिक हैं , तो हम अनावश्यक संभावनाओं को प्राप्त करने के लिए घातांक कर सकते हैं। हम फिर देखते हैं कि यह z के एक सिग्मोइडल परिवर्तन द्वारा नियंत्रित बर्नौली वितरण का उत्पादन करता है: वाई जेड ~ पी ( y ) y z लॉग ~ पी ( y )
प्रश्न: मैं दो चीजों के बारे में भ्रमित हूं, विशेष रूप से पहला:
- शुरुआती धारणा कहां से आ रही है? और में अप्राकृतिक लॉग संभाव्यता रैखिक क्यों है ? क्या कोई मुझे इस बारे में कुछ जानकारी दे सकता है कि लेखकों ने कैसे शुरुआत की ?z लॉग ~ पी ( y ) = y z
- अंतिम पंक्ति का पालन कैसे होता है?