और असामान्य रूप से लॉग संभावनाओं के साथ शुरू होने वाले तंत्रिका नेटवर्क में सिग्मॉइड आउटपुट इकाइयों को प्रेरित करना


12

बैकग्राउंड: मैं इयान गुडफेलो और योशुआ बेंगियो और आरोन कोर्टविल द्वारा डीप लर्निंग के अध्याय 6 का अध्ययन कर रहा हूं। खंड 6.2.2.2 में (183 के पृष्ठ 182 जो यहां देखे जा सकते हैं ) आउटपुट लिए सिग्मॉइड का उपयोग प्रेरित है।P(y=1|x)

सक्रियण के लागू होने से पहले वे कुछ सामग्री को संक्षेप में बताते हैं कि एक आउटपुट न्यूरॉन है जहां पिछली छिपी हुई परत का आउटपुट है, वजन का एक वेक्टर है और एक अदिश पूर्वाग्रह है। इनपुट वेक्टर निरूपित किया जाता है (जो के एक समारोह है) और उत्पादन मूल्य निरूपित किया जाता है जहां अवग्रह समारोह है। पुस्तक मूल्य का उपयोग करके पर एक प्रायिकता वितरण de fi ne करना चाहती है । पृष्ठ 183 के दूसरे पैराग्राफ से:w एक्स एच y = φ ( जेड )

z=wTh+b
hwbxhy=ϕ(z)Zϕyz

हम इस बात पर विचार करने के लिए पर निर्भरता छोड़ देते हैं कि वैल्यू का उपयोग करके पर एक प्रायिकता वितरण को de कैसे करें । सिग्मॉइड को एक असामान्य संभावना संभावना वितरण निर्माण के द्वारा प्रेरित किया जा सकता है , जिसका योग 1 नहीं है। हम तब एक उचित प्रायिकता वितरण प्राप्त करने के लिए एक उपयुक्त स्थिरांक से विभाजित कर सकते हैं। यदि हम इस धारणा से शुरू करते हैं कि असामान्य रूप से लॉग संभावनाएँ और में रैखिक हैं , तो हम अनावश्यक संभावनाओं को प्राप्त करने के लिए घातांक कर सकते हैं। हम फिर देखते हैं कि यह z के एक सिग्मोइडल परिवर्तन द्वारा नियंत्रित बर्नौली वितरण का उत्पादन करता है: वाई जेड ~ पी ( y ) y z लॉग ~ पी ( y )xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

प्रश्न: मैं दो चीजों के बारे में भ्रमित हूं, विशेष रूप से पहला:

  1. शुरुआती धारणा कहां से आ रही है? और में अप्राकृतिक लॉग संभाव्यता रैखिक क्यों है ? क्या कोई मुझे इस बारे में कुछ जानकारी दे सकता है कि लेखकों ने कैसे शुरुआत की ?z लॉग ~ पी ( y ) = y zyzlogP~(y)=yz
  2. अंतिम पंक्ति का पालन कैसे होता है?

जवाबों:


8

लिए दो संभावित परिणाम हैं । यह बहुत महत्वपूर्ण है, क्योंकि यह संपत्ति गुणन का अर्थ बदल देती है। दो संभावित मामले हैं:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

इसके अलावा महत्वपूर्ण सूचना है कि लिए असामान्य लॉगरिदमिक संभावना स्थिर है। यह संपत्ति मुख्य धारणा से निकलती है। किसी भी नियतात्मक कार्य को स्थिर मान पर लागू करने से निरंतर उत्पादन होगा। जब हम सभी संभावित संभावनाओं पर सामान्यीकरण करेंगे, तो यह संपत्ति अंतिम सूत्र को सरल बनाएगी, क्योंकि हमें केवल लिए केवल असामान्य रूप से संभाव्यता जानने की आवश्यकता है और यह हमेशा स्थिर है। और नेटवर्क से उत्पादन के बाद से असामान्य रूप से लघुगणकीय संभावना में हमें केवल एक आउटपुट की आवश्यकता होगी, क्योंकि एक और एक को निरंतर माना जाता है।y = 1 y = 0y=0y=1y=0

इसके बाद, हम अनावश्यक रूप से संभाव्यता प्राप्त करने के लिए अपारंपरिक लॉगरिदम संभावना के लिए एक्सप्रेशन का उपयोग कर रहे हैं।

P~(y=1)=ezP~(y=0)=e0=1

आगे हम प्रत्येक संभावित अप्राकृतिक संभावनाओं के योग द्वारा प्रत्येक अप्राकृतिक संभावना को विभाजित करने वाली संभावनाओं को सामान्य करते हैं।

P(y=1)=ez1+ezP(y=0)=11+ez

हम केवल में रुचि रखते हैं , क्योंकि सिग्मॉइड फ़ंक्शन से यही संभावना है। प्राप्त फ़ंक्शन पहले लुक पर सिग्मॉइड की तरह नहीं दिखता है, लेकिन वे समान हैं और यह दिखाना आसान है।P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

अंतिम कथन पहली बार में भ्रमित हो सकता है, लेकिन यह सिर्फ यह दिखाने का एक तरीका है कि अंतिम प्रायिकता फ़ंक्शन एक सिग्मोइड है। मूल्य धर्मान्तरित के लिए और के लिए (या हम कह सकते हैं कि यह बदलाव के बिना होगा)।0 - 1 1 1(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

जैसा कि हम देख सकते हैं, यह सिर्फ और बीच संबंध दिखाने का तरीका हैपी ( y )σP(y)


"इसके अलावा महत्वपूर्ण सूचना है कि लिए असामान्य लॉगरिदमिक संभावना स्थिर है। यह संपत्ति मुख्य धारणा से निकलती है।" यह अनुमान लगाया जा रहा है कि हमने पहले से ही तय कर लिया है ? y = 1y=0y=1
HBeel 25'17

मुझे लगता है कि मेरा भ्रम इस तथ्य से आया है कि सिग्मॉइड वास्तविक लेबल की परवाह किए बिना मॉडल की की संभावना देता है । धन्यवाद! y=1
HBeel

यहाँ मोटी होने का मतलब यह नहीं है कि कैसे और में रैखिक है । मुझे कुछ रूप की उम्मीद है । मुझे एहसास है कि उत्पाद पर पर राशि प्राप्त होगी जो मुझे रैखिकता के करीब ले जाएगी लेकिन लेखक द्वारा बताई गई बातों से यह प्रत्यक्ष नहीं लगता है। y z a y + b z + c log y zy×zyzay+bz+clogyz
zebullon

मैं देखता हूं, यह वास्तव में दिलचस्प सवाल है। जब मैंने पहली बार प्रश्न पढ़ा तो मैंने इस कथन पर ध्यान नहीं दिया। अब यह मुझे भी अजीब लगता है। एक समस्या यह है कि y बाइनरी चर और मुझे यकीन नहीं है कि इन परिस्थितियों में रैखिक फ़ंक्शन के गुणों की जांच कैसे की जाए। मुझे लगता है कि अगर आप अलग-अलग प्रश्न पूछते हैं तो यह समझ में आएगा, हो सकता है कि कोई व्यक्ति आपको समझा सके कि इसे इस तरह से क्यों लिखा गया है।
itdxer

2

मुझे पुस्तक के इस टुकड़े का अनुसरण करना चुनौतीपूर्ण लगता है, और itdxer द्वारा उपर्युक्त उत्तर समझने के लिए काफी समय के साथ-साथ किसी ऐसे व्यक्ति के लिए भी उपयुक्त है, जो संभावनाओं और गणित की सोच के साथ ठीक से नहीं चल रहा है। हालांकि मैंने इसका उत्तर पीछे की ओर पढ़कर बनाया है, इसलिए z के सिग्मॉइड से शुरू करें

P(y=1)=ez1+ez=11+ez

और वापस करने का प्रयास करें।

logP~(y)=yz

फिर यह समझ में आता है कि उन्होंने yz के साथ स्पष्टीकरण की शुरुआत क्यों की - यह डिजाइन द्वारा, अंतिम के समान है

σ((2y1)z)

निर्माण के द्वारा y = 0 के लिए -1 और y = 1 के लिए -1 प्राप्त करने की अनुमति देता है, जो बर्नौली के तहत y का एकमात्र संभावित मूल्य है।


0

यहाँ एक और अधिक औपचारिक फंतासिंग है जो एक माप-सिद्धांत की पृष्ठभूमि वाले लोगों से अपील करेगा।

YPYy{0,1}PY(y)=P(Y=y)P~Y

हमारे पास निहितार्थों की निम्नलिखित श्रृंखला है:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

अंतिम समानता मैपिंग का एक स्मार्ट तरीका है{0,1}{1,1}

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.